机器学习
不想做码农
这个作者很懒,什么都没留下…
展开
-
1..groupby() 2.df.agg() 3.缺失值可视化分析4.特征之间关系可视化展示5.将两列去平均6.seaborn绘制线性回归函数 7.把列中连续值进行分类8.统计df内部数据特征
https://github.com/ResidentMario/missingno import missingno as msno 缺失值可视化展示sns.distplot(df['列名‘],kde=False)可以画出上面skintone的分布柱形图seaborn绘制线性回归函数把列中连续值进行分类统计df...原创 2019-05-30 15:25:16 · 193 阅读 · 0 评论 -
1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型
类别不平衡:假如样本中反例数目多,正例数目少 (西瓜书67页)下采样(去除一些反例) 上采样(增加一些正例) 阈值移动(再缩放)删除缺失值的行或者列df.iloc[ 数字] 可以输出对应的行iloc是按照index(也就是内部数据的行数)的序值. loc按照index的具体值转换表的数据 (inplace=True代表更改源文件)删除只有一种数值的无用特征...原创 2019-05-27 19:48:07 · 615 阅读 · 0 评论 -
1 . DataFrame.reset_index 2. 交叉验证 3.多分类DataFrame 返回最大值索引 4.删除缺失值 5.某一列值的个数 6.切分
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')重新设计索引,将原来的索引转换成列,放入表格。内部参数drop=True : 删掉原来的索引。交叉验证将DataFrame指定列排序多分类DataFrame 返回最大值索引删除...原创 2019-05-26 21:23:17 · 329 阅读 · 0 评论