2020年08月_bingbangx

原创牛客网，给出每个员工每年薪水涨幅超过5000的员工编号

题目描述给出每个员工每年薪水涨幅超过5000的员工编号emp_no、薪水变更开始日期from_date以及薪水涨幅值salary_growth，并按照salary_growth逆序排列。提示：在sqlite中获取datetime时间对应的年份函数为strftime('%Y', to_date)(数据保证每个员工的每条薪水记录to_date-from_date=1年，而且同一员工的下一条薪水记录from_data=上一条薪水记录的to_data)CREATE TABLE `salaries`

2020-08-27 16:36:15 211

原创牛客网，所有员工的当前薪水按照按照salary进行1~N的排名

题目描述对所有员工的当前(to_date='9999-01-01')薪水按照salary进行按照1-N的排名，相同salary并列且按照emp_no升序排列CREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` date NOT NULL,`to_date` date NOT NULL,PRIMARY KEY (`emp_no`,`from_date`));输入描述:

2020-08-26 18:31:52 169

原创牛客网，查找所有员工自入职以来的薪水涨幅情况

题目描述查找所有员工自入职以来的薪水涨幅情况，给出员工编号emp_no以及其对应的薪水涨幅growth，并按照growth进行升序（注:可能有employees表和salaries表里存在记录的员工，有对应的员工编号和涨薪记录，但是已经离职了，离职的员工salaries表的最新的to_date!='9999-01-01'，这样的数据不显示在查找结果里面）CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date

2020-08-26 17:28:53 152

原创 Windows系统更新R的方法

Windows下可以直接更新Rwindows下可以直接使用installr包来更新R。> library(installr)> updateR()

2020-08-26 10:55:05 3861 1

转载 Windows环境下安装JDK、JRE和环境变量配置

一、准备工具:1.JDKJDK 可以到官网下载http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.系统我这里是WIN7 SP1X 64系统3.根据系统的版本下载相对应的JDK。我这里选择：jdk-7u80-windows-x64.exe注意区分：Java SE Development Kit 8u25Java SE Developmen...

2020-08-26 00:08:54 2233

原创 SQL，判断获取的数字是奇数还是偶数

题目描述查找employees表所有emp_no为奇数，且last_name不为Mary(注意大小写)的员工信息，并按照hire_date逆序排列(题目不能使用mod函数)CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1)

2020-08-25 14:10:02 4513

转载 SQL查询知识点总结

转载于：https://zhuanlan.zhihu.com/p/113005033仅用于学习，如有侵权，请联系我。数据库基础知识什么是数据库？什么是是sql?数据库database：用于存放数据的容器（一个文件或者一组文件）。区别于数据库管理软件（DBMS-database management system)。SQL:数据库查询语言，Structured Query Language的简称。SQL语言是用于操纵数据库软件的语言。（为什么要使用数据库？数据库比excel有更多的优点：数据库

2020-08-25 11:43:27 1604

原创牛客网，获取所有部门当前员工薪水最高的相关信息（薪水最高的可能有多条）

题目描述获取所有部门中当前(dept_emp.to_date = '9999-01-01')员工当前(salaries.to_date='9999-01-01')薪水最高的相关信息，给出dept_no, emp_no以及其对应的salary，按照部门升序排列。CREATE TABLE `dept_emp` (`emp_no` int(11) NOT NULL,`dept_no` char(4) NOT NULL,`from_date` date NOT NULL,`to_date` date

2020-08-25 11:19:05 184

转载 SQL查询表中符合条件的第二条记录的方法

创建用到的表的SQLCREATE TABLE [dbo].[emp_pay]( [employeeID] [int] NOT NULL, [base_pay] [money] NOT NULL, [commission] [decimal](2, 2) NOT NULL) ON [PRIMARY]生成的表，及表中的数据：--方法一select top 1 * from( SELECT TOP 2 * FROM [db..

2020-08-24 15:43:55 4831

原创狭义线性模型与广义线性模型

狭义线性模型：自变量上不可能有高次项，自变量与标签之间不能存在非线性关系；广义线性模型：只要标签与模型拟合出的参数之间的关系是线性的，模型就是线性的。这就是说，只要生成的一系列w之间没有相乘或者相除的关系，就认为模型是线性的。...

2020-08-24 14:59:18 502

原创 R连接MySQL乱码问题解决

1、当使用RMySQL连接上MySQL数据库时，会出现乱码的情况：2、解决办法通过在dbSendQuery()设置客户端编码，如：dbSendQuery(conn,'SET NAMES gbk') # 乱码conn为我的数据库的连接对象。3、输出结果：嘻嘻嘻，解决。...

2020-08-21 17:36:46 251

转载 R语言-连接MySQL数据库方法

1、使用R数据库接口连接MySQL，使用RMySQL包，使用前RMySQL包要先安装。library(RMySQL)连接方式有2种：（1）使用dbConnectconn <- dbConnect(MySQL(), dbname = "rmysql", username="rmysql", password="rmysql", host="127.0.0.1", port=3306)数据操作方法：dbWriteTable(conn, "tablename", data) #写表

2020-08-21 16:10:38 1823 1

原创 Mysql，timestampdiff()函数

mysql中用于计算两个日期的时间差函数timestampdiff()用法：语法：TIMESTAMPDIFF(unit,datetime_expr1,datetime_expr2)unit：时间类型；datetime_expr1：开始时间；datetime_expr2：结束时间)结果是：结束时间-开始时间时间类型包括：year,month,day,hour,minute,second如：select a.call_time,a.grab_time,TIMESTAMPDIFF(m

2020-08-20 23:59:21 1082

转载 Mysql，sum(if())及count(if())

SELECT SUM(extcredits1) AS e1 FROM test;SELECT SUM(if(category=1,size,0)) ,COUNT(if(category=1,true,null)) FORM t_file;解析：sum（if(category=1,size,0))sum函数返回一个值类型的数值，如果category=1,则返回size,如果category不等于1就返回0。 count(if(category=1,true,null))...

2020-08-20 23:11:25 223

转载 mysql中date_add与date_sub函数的使用

下面是关于两种的函数在MySQL中的用法：在Mysql中，date_add与date_sub分别是指对于日期的一个加减操作。date_add是指从日期中加上指定的时间间隔；date_sub是指从日期中减去指定的时间间隔。mysql 中 DATE_ADD(date,INTERVAL expr type) 和 DATE_SUB(date,INTERVAL expr type)这些函数执行日期运算。 date 是一个 DATETIME 或DATE值，用来指定起始时间。 expr 是一个表达式，用.

2020-08-20 22:30:45 1551

转载利用case when then 多条件判断

CASEWHEN 条件1 THEN 结果1WHEN 条件2 THEN 结果2WHEN 条件3 THEN 结果3WHEN 条件4 THEN 结果4.........WHEN 条件N THEN 结果NELSE 结果XENDCase具有两种格式。简单Case函数和Case搜索函数。--简单Case函数CASE sexWHEN '1' THEN '男'WHEN '2' THEN '女'ELSE '其他'...

2020-08-20 18:19:30 1023

原创 Python，sklearn多项式回归处理非线性问题

from sklearn.preprocessing import PolynomialFeatures as PFfrom sklearn.linear_model import LinearRegressionimport numpy as nprnd = np.random.RandomState(42) #设置随机数种子X = rnd.uniform(-3, 3, size=100)y = np.sin(X) + rnd.normal(size=len(X)) / 3 #将X升维，准备..

2020-08-20 16:13:02 1308

原创 Python，sklearn使用分箱处理非线性问题

使用分箱处理非线性问题。1、导入所需要的库import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.tree import DecisionTreeRegressor2、创建需要拟合的数据集rnd = np.random.RandomState(42) #设置随机数种子X = rnd.uniform(-3, 3, s

2020-08-20 10:53:25 2489

原创 MySQL中substr()函数的使用

在mysql数据库中，substr()函数是用来截取数据库某一列字段中的一部分。主要有SBUSTR(str,pos); 和SUBSTR(str,pos,len); 两种方式。如：查询到的原始数据格式为：select a.visitdatefrom src_his_mz_master_info a;SBUSTR(str,pos);从pos开始的位置，一直截取到最后。select substr(a.visitdate,1,4)from src_his_mz_master_i.

2020-08-19 17:54:41 6372

原创 sklearn 中线性回归的类/函数

类/函数含义普通线性回归 linear_model.LinearRegression 使用普通最小二乘法的线性回归岭回归岭回归，一种将L2作为正则化工具的线性最小二乘回归 linear_model.RidgeCV 带交叉验证的岭回归 linear_model.RidgeClassififier 岭回归的分类器 .

2020-08-17 10:51:15 397

转载 Python中类似于GROUP_CONCAT的操作

import pandas as pd'''dfzq area province北一战区北京区北京北一战区华北区河北北一战区华北区天津北一战区东北区黑龙江北一战区东北区吉林'''def group_concat(df): df['province'] = ','.join(set(df['province'])) return df.drop_duplicates()#注意这里需要做一下去重 df.groupby(['zq','area'].

2020-08-14 18:05:01 1600 1

原创在R中安装读取读取excel的包

很简单，但不知道就是不会。????在控制台输入：install.packages("xlsx")

2020-08-14 16:09:50 867

原创 Python处理乱码问题

# 设置字体，避免乱码from pylab import mplmpl.rcParams['font.sans-serif']=['FangSong'] # 设置负号，使得负号能够正常显示。from pylab import mplmpl.rcParams['axes.unicode_minus']=False

2020-08-13 15:58:36 191

原创 Python可视化分析，pandas作图

#pandas中的绘图函数import pandas as pdimport osos.chdir(r'E:\可视化分析\Excel1\Python数据可视化2') # 定义数据的目录df=pd.read_csv('data.csv',index_col='年份') # 读取数据，并将年份作为index列df.head() 人均GDP（元）啤酒产量（万千升）居民消费价格指数（上面=100）年份 2000 7857.7...

2020-08-13 15:50:09 576

原创 Excel动态图表----------单选控件作图，滚动条动态作图

如果想要进行实操，可从网盘中提取数据：要进行单选控件作图和滚动条控件作图，都需要用到控件。控件，在开发工具中，这个在excel中默认是不显示的，需要添加。鼠标右键单击空白区域，会弹出：将开发工具勾选上，就能添加控件。1、单选控件变动图表实现效果，通过点击按钮，可以实现类别的变化：第一步：插入控件。用到的数据：点击插入---->选择要用到的控件------->插入四个选项按钮（因为有四类）右键单击任意一个按钮，选择设置...

2020-08-13 10:17:14 1190

原创利用Excel动态图表----------使用offset(),match()多种控件，实现筛选作图

实现利用Excel进行可视化动态分析。如果想要进行实操，可从网盘中取数：链接：https://pan.baidu.com/s/1rV_Cfx7kZqQvB7PzMqYHYA提取码：aykp数据： 1月 2月 3月 4月 5月 6月 7月 8月充值金额 118181 99099 129451 121984 111411 115344 101106 118261 提现金...

2020-08-12 18:08:17 3295

原创利用Excel可视化分析，柱形图、条形图、饼图、复合饼图，圆环图、组合图、漏斗图、地图的操作方法（适合小白）

今天收获满满，感觉学习到许多，进行归纳，整理利用Excel进行可视化分析。如果想要进行实操，可以自己从网盘中提取数据链接：https://pan.baidu.com/s/1xus3KRlXvLXopp1zQsTEZA提取码：qjn21、柱形图数据是这样的：第一：插入------>柱形图第二：选择数据---->选中要分析的数据（以人均GDP为例）确定，会进入这个界面：现在，将纵坐标设置完毕，会发现横坐标显示的并不是我们想研究的“年份”，点编辑，选.

2020-08-12 13:01:57 3307

原创 python数据可视化分析的操作过程

# 创建数据，可视化import matplotlib.pyplot as pltimport numpy as npx = np.arange(0,1,0.05)# 正弦函数y = sin(2*np.pi*x)# 2×np.pi就相当于2πy = np.sin(2*np.pi*x)yarray([ 0.00000000e+00, 3.09016994e-01, 5.87785252e-01, 8.09016994e-01, 9.51056516e-01, 1.00000000e+.

2020-08-12 00:09:50 615

原创解决已经导入wordcloud还显示ModuleNotFoundError: No module named ‘wordcloud‘的问题

已经在电脑默认路径下安装了wordcloud,但输入import wordcolud时，仍然显示ModuleNotFoundError: No module named 'wordcloud'的错误。首先，检查python的安装路径；# 显示python的默认安装路径import sysprint(sys.executable)我的显示：c:\users\wm\appdata\local\programs\python\python36\python.exe其次，...

2020-08-11 22:50:37 38016 10

原创查找anaconda路径的方法

在电脑中找到anaconda的路径的方法：1、按【win+r】快捷键打开运行；2、在输入框中输入cmd，点击【确定】；3、在打开的命令提示符中执行【conda info --envs】命令即可。

2020-08-11 22:19:11 45456 3

原创解决AttributeError: module ‘matplotlib‘ has no attribute ‘plot‘

经过查找，发现导入包时写的方式不对。我是这样写的import matplotlib as plt改成这样就ok了import matplotlib.pyplot as plt

2020-08-11 17:55:05 13673 2

原创 Python ，SVM模型效果的评估指标

混淆矩阵中：模型整体效果：准确率：1. 准确率Accuracy就是所有预测正确的所有样本除以总样本，通常来说越接近1越好2.捕捉少数类的艺术：精确度，召回率和F1 score：精确度Precision，又叫查准率，表示所有被我们预测为是少数类的样本中，真正的少数类所占的比例。精确度是”将多数类判错后所需付出成本“的衡量。#所有判断正确并确实为1的样本 / 所有被判断为1的样本 #对于没有class_weight，没有做样本平衡的灰色决策边界来说： (y[y ..

2020-08-10 22:55:45 6994 2

原创 sklearn SVM探索核函数在不同数据集上的表现

# 1、导入所需要的类和模块import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormap #from sklearn import svmfrom sklearn.datasets import make_circles, make_moons, make_blobs,make_classification# 2、创建数据集，定义核函数的选择n_samp.

2020-08-08 00:01:37 479 1

转载 Notepad++的批量编辑SQL功能

Notepad++的列编辑功能本文网址：https://www.crifan.com/files/doc/docbook/rec_soft_npp/release/htmls/npp_function_column_mode.htmlNotepad++介绍全目录：https://www.crifan.com/files/doc/docbook/rec_soft_npp/release/htmls/index.html3.6.Notepad++的列编辑功能下面来解释Notepad++中..

2020-08-07 23:43:59 2042

转载 sklearn.svm.SVC中kernel参数说明

sklearn.svm.SVC中kernel参数说明常用核函数线性核函数kernel='linear' 多项式核函数kernel='poly' 径向基核函数kernel='rbf' sigmod核函数kernel='sigmod' 常用核函数线性核函数kernel=‘linear’采用线性核kernel='linear’的效果和使用sklearn.svm.LinearSVC实现的效果一样，但采用线性核时速度较慢，特别是对于大数据集，推荐使用线性核时使用LinearS.

2020-08-07 11:04:02 4241 2

原创 Python 线性SVM决策过程的可视化

# 1、导入需要的模块from sklearn.datasets import make_blobsfrom sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as np# 2、实例化参数，可视化数据集X,y = make_blobs(n_samples=50, centers=2, random_state=0,cluster_std=0.6)plt.scatter(X[:,0],X[:,1],.

2020-08-07 10:33:19 3352 2

原创 Python，SVM画决策边界：制作网格，函数meshgrid的用法

#使用meshgrid函数将两个一维向量转换为特征矩阵#核心是将两个特征向量广播，以便获取y.shape * x.shape这么多个坐标点的横坐标和纵坐标用一个简单的小例子来说明：a = np.array([1,2,3])aOut[26]: array([1, 2, 3])b = np.array([7,8])bOut[27]:array([7, 8])v1,v2 = np.meshgrid(a,b)v1Out[28]: array([[1, 2...

2020-08-07 00:04:02 942

原创 Python 聚类算法用于降维，KMeans的矢量量化应用

1、导入所用的库import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.metrics import pairwise_distances_argmin# 对两个序列中的点进行距离匹配的函数from sklearn.datasets import load_sample_image# 导入图片数据所用的类from sklearn.utils import .

2020-08-06 00:20:04 668 3

原创 assert的功能

# assert的功能# assert 相当于raise error if not ,表示为“不为True就报错”# 要求d必须等于3，如果不等于，就报错。d_ = 5assert d_ ==3,"一个格子中的颜色种类不等于3种"当d_ = 3时，就不会报错。...

2020-08-05 17:33:52 260

原创 Kmeans聚类分析的参数、属性、接口

参数n_clusters：KMeans中的k，表示着我们告诉模型我们要分几类。init & random_state & n_init：初始质心怎么放好max_iter & tol：让迭代停下来属性：接口：（根据菜菜的机器学习sklearn课堂整理）...

2020-08-05 13:06:40 1556

空空如也

空空如也