- 博客(25)
- 问答 (1)
- 收藏
- 关注
原创 Python 笔记--提升
1.将字段名称全部放在列表 data_vars=data.columns.values.tolist() 2.过滤长度小于等于3的人名 names=['tom','jack','joe','apple','rain','bubby'] name=[x for x in names if len(x)>3] #结果如下 ''' ['jack', 'apple', 'rain', 'b...
2020-06-20 23:43:36
296
原创 SQL相关笔记整理
1. select count(1) from ( select bb.certid, count(distinct flag) num from bb group by certid having count(distinct flag)>1 )a 2 from>where>group(含聚合)>having>order>...
2020-04-04 09:04:13
357
原创 Hive 学习笔记①
1.内部表与外部表区别 ①未被external修饰的是内部表[managed table],被external修饰的是外部表[external table]; ②内部表由hive管理,外部表由hdfs管理; ③内部表数据存储在hive.metastore.warehose.dir[默认user/hive/warehouse],外部表数据存储位置由用户自己决定;(如果没有LOCATION,Hive...
2020-03-19 15:17:11
298
原创 数据预处理总结 Python
1.数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布 的需求,这种需求统称为将数据“无量纲化”。进行无量纲化处理后,表征不同属性(单位不同)的各特征之间才有可比性,如1cm与 0.1kg你怎么比? 通过无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。数据的无量纲化可以是线性的,也可以是非...
2019-12-24 18:26:15
1207
原创 自然月日期
from calendar import Calendar import datetime c = Calendar(firstweekday=6) list_day=[] for item in c.itermonthdates(2018,8): #print(item) #print(item.month) if item.month==8: list_day.append(item)
2021-04-06 17:33:16
275
原创 python describe
#针对变量较多,describe方法无法完全显示,因此写自定义函数,查看数值型数据中的数据分布情况 #需要计算的指标:均值mean、方差std、最小值min、 import numpy as np import pandas as pd from scipy import stats data=pd.read_csv() def desc(data): #筛选出数值型的数据 df=data.copy() #新建一个DataFrame,记载各变量的数据类型,便于后续筛选 .
2021-03-25 14:14:30
1306
原创 python分箱
为便于工作中计算KS和IV等值,编写一套可以沿用的代码,方便随时使用。 #第一步,读取数据 import pandas as pd import numpy as np df=pd.read_excel(r'C:\Users\***\a.xlsx') #第二步:查看所有字段的字段类型 df.dtypes #新建一个DataFrame,记载各变量的数据类型,便于后续筛选 df_var=pd.DataFrame(df.columns,columns=['var']) df_type=pd.DataFr
2020-11-23 18:12:39
3058
3
原创 问题集中营~待处理
1.异常值检查方法 处理方法; 2.分位数的理解 3. import imblearn from imblearn.over_sampling import SMOTE smote=SMOTE(random_state=404) X,y=smote.fit_sample(df.iloc[:,1:],df.iloc[:,0]) ...
2020-03-24 18:26:06
229
原创 模型评估方法和性能指标的理解
1.混淆矩阵: 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。 举例: 对应矩阵: 结合实际工作中的专业术语: 其中,各字母所代表含义: T True 预测...
2020-03-20 15:01:43
2532
原创 K-means 使用SSE和轮廓系数
import pandas as pd import numpy as np #创造数据 from sklearn.datasets import make_blobs import matplotlib.pyplot as plt x,y=make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) fig,ax1=plt...
2020-02-17 17:09:11
2011
原创 KNN 鸢尾花&癌症预测 交叉验证&网格搜索 笔记
一、交叉验证 cross_val_score: sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’) 参数 estimator:数据对象 X:...
2020-02-08 19:32:25
697
原创 .python 简单小练习
1.九九乘法表 list1=[] for i in range(1,10): list1.append(i) list1.sort(reverse=True) for m in list1: # print(m) for n in range(1,m+1): print("{}*{}={}".format(m,n,m*n),end=" ...
2020-01-30 18:02:09
202
原创 数据清洗与准备
1 处理缺失值 1.1 过滤缺失值:dropna() 1.2 补全缺失值:fillna() 1.3 数据转换 1.3.1 删除重复值 ①duplicated方法返回的是一个布尔值series; ②drop_duplicates返回的是DataFrame,内容是duplicated返回数组中为False的部分; 注释:duplicated和drop_duplicates...
2020-01-28 13:13:54
244
原创 内建数据结构、函数
一、数据结构和序列 1.1元组,tuple,() #元组 t1=() print(type(t1)) ''' <class 'tuple'> ''' t2=(1) print(type(t2)) ''' <class 'int'> ''' t3=('1') print(type(t3)) ''' <class 'str'> ''' t4=(1,) ...
2020-01-27 17:44:35
227
原创 python 将数据放在邮件正文发送
#需发送的数据 data import smtplib from email.mime.text import MIMEText from email.utils import formataddr from email.mime.multipart import MIMEMultipart from email.header import Header #发件箱 my_sender='~'...
2020-01-07 15:56:30
1038
原创 matplotlib 折线图
在python的matplotlib库中分别可用bar、barh、plot函数来构建它们,再使用xticks与yticks(设置坐标轴刻度)、 xlabel与ylabel(设置坐标轴标签)、title(标题)、legend(图例)、xlim与ylim(设置坐标轴数据范围)、 grid(设置网格线)等命令来装饰图形 plot(*args, scalex=True, ...
2020-01-05 13:37:40
447
原创 爱心函数可视化 python
import numpy as np import matplotlib.pyplot as plt x = np.linspace(-8 , 8, 1024) y1 = 0.618*np.abs(x) - 0.8* np.sqrt(64-x**2) y2 = 0.618*np.abs(x) + 0.8* np.sqrt(64-x**2) plt.plot(x, y1, color = 'r...
2020-01-05 13:22:26
518
原创 matplotlib 散点图
scatter( x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, plotnonfinite=False, data=...
2020-01-04 20:25:27
485
原创 特征选择
可参考文章:https://www.cnblogs.com/pinard/p/9032759.html 特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集; 常见的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。 1.过滤式filter: 通过...
2020-01-03 16:23:40
737
原创 小猪佩奇代码 Python
from turtle import* def nose(x,y):#鼻子 penup()#提起笔 goto(x,y)#定位 pendown()#落笔,开始画 setheading(-30)#将乌龟的方向设置为to_angle/为数字(0-东、90-北、180-西、270-南) begin_fill()#准备开始填充图形 a=0.4 for i in ...
2020-01-02 17:47:25
2312
原创 StratifiedShuffleSplit 分层抽样
分层随机分割交叉验证器可以将数据分割为训练集和测试集,不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能,该对象返回分层随机折,对像通过对每一类保留一定比例的样本生成折。注意:同随机分割一样,分层随机分割不保证所有折都是不同的,即使对于大数据集也不例外。 原型为: class sklea...
2020-01-02 16:20:23
1406
原创 线性回归-案例1
from sklearn.datasets import load_boston from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split from s...
2019-12-31 10:00:45
217
原创 等频分箱代码
如下代码,仅需将原始已处理好的需变量分析的数据读入,Y值需将字段名称修改为‘15A’即可运行。 # -*- coding: utf-8 -*- """ """ import pandas as pd import numpy as np import xlrd #from pandasql import sqldf #定义读入数据 def xlsxread(self):...
2019-12-16 09:59:16
1868
2
原创 mysql中将一行转化为多行数据
之前在网上搜索了很多关于这个问题的解答方式,基本都是使用substring_index和mysql.help_topic搭配使用,方法没错,但是使用后发现运行时间太长,因此就放弃使用网上推荐的方法。 可以使用substring_index和union all搭配使用; 图1 图2 将图1变为图2, 可以这样编写代码: select id,name,substring_inde...
2018-12-12 16:22:51
3821
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅