![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析
文章平均质量分 75
睡醒了的小码媛
数据挖掘路上的点滴积累
展开
-
python系列(2)---pandas库基础知识
pandas是数据清洗常用包,知识点包括数据的创建、数据的操作、数据的计算、数据的索引。脑图如下。一、数据创建:Series,DataFrame1.Series创建的两种方式 :一维数组 或者 字典 2.Series运算 3.dataframe创建的两种方式:数组 或者 字典二、数据的常用操作1.读取文件pd.read_csv...原创 2019-01-25 21:10:43 · 263 阅读 · 0 评论 -
python系列(1)---基础知识
基础语法(一 )一、python字符串1.运算符 2.基本数据类型 3.字符串基本运算 4.字符串常用函数 二.python数据结构1.list方法(静态)和操作(动态)创建list()或[] 2.列表推导式:利用其它列表创建新列表,类似for循环,格式:new1=[exper for value...原创 2019-01-27 19:58:41 · 198 阅读 · 0 评论 -
python系列(3)---numpy库基础知识
一、数组的创建:1.常规创建:np.array()2.特殊数组的创建:np.ones(),np.zeros(2,4)创建2行4列的0数组,np.eyes(),单位矩阵dtype:指定数据类型 zeros:创建数据全为0 ones:创建数据全为1 empty:创建数据接近0 3.通过函数创建:np.arange(10,20,2),区间1...原创 2019-01-29 20:55:29 · 981 阅读 · 0 评论 -
python系列(4)---matplotlib库基础知识
原创 2019-01-29 21:13:50 · 155 阅读 · 0 评论 -
python数据挖掘---数据清洗篇(附代码)
在数据挖掘路上点点滴滴,遇到的数据清洗的一些常用技巧和方法,记录下来,并持续更新。1.01读取数据不要索引,去掉字段前后空格train=pd.read_csv('train.csv',skipinitialspace=True,index_col=0)1.02缺失值处理按列统计缺失值比例,决定去除或者填充all_missing=all_dummies.isnul...原创 2019-06-07 08:42:27 · 5065 阅读 · 0 评论 -
python数据挖掘--特征工程篇(附代码)
记录数据挖掘路上遇到的常用特征工程方法和技巧(附代码),方便自己,方便他人,持续更新。1.哑编码对某一列数据进行pandas自带的(定性数据哑编码,定量数据二值化),并附上名字pd.get_dummies(all['MSSubClass'], prefix='MSSubClass')2.卡方特征选择从已有的特征中选择出影响目标值最大的特征属性常用方法:{ 分类:F统计量、卡...原创 2019-06-07 08:49:54 · 932 阅读 · 0 评论 -
python数据挖掘---建模篇(附代码)
数据挖掘路上点点滴滴,记录下机器学习常用模型(附代码),持续更新数据划分x_train1, x_test1, y_train1, y_test1 = train_test_split(x, y, train_size=0.8, random_state=14)数据标准化树类模型不需要,使数据符合N(0,1)分布。很多ML的算法要求训练的输入参数的平均值是0并且有相同阶数...原创 2019-06-07 09:02:38 · 4986 阅读 · 0 评论 -
python数据挖掘--超参寻优篇(附方法和代码)
数据挖掘路上点点滴滴,记录超参优化的常用手段,最近在学习自动化超参寻优,持续更新。1.K折交叉验证参数from sklearn.model_selection import cross_val_score,KFold定义交叉验证规则n_folds = 5rmse=[]def rmsle_cv(model): kf = KFold(n_folds, shuffle=...原创 2019-06-07 09:17:50 · 1758 阅读 · 0 评论 -
python数据挖掘--评估指标
数据挖掘路上滴滴点点,记录下常用评价指标。持续更新。Acc、f1、recall、precisionmetrics_lr = { 'accuracy': accuracy_score(prediction_lr, Y_test), 'f1': f1_score(prediction_lr, Y_test, average="macro"), 'recall': rec...原创 2019-06-07 09:19:54 · 793 阅读 · 0 评论