传统机器学习——特征工程之数据清洗

最新推荐文章于 2021-09-30 10:42:53 发布

macan_dct

最新推荐文章于 2021-09-30 10:42:53 发布

阅读量380

点赞数

文章标签：机器学习特征工程

本文链接：https://blog.csdn.net/weixin_42211626/article/details/99576746

版权

学习了这么长时间的理论知识，开始着手理论联系实践了。
先总结一些基本的特征工程中数据清洗的基本套路，具体实现会在以后给出。
声明：关于编程语法相关问题不会展开论述，本文只针对方法路线。

解决缺失值： 平均值、最大值、最小值或者更为复杂的的概率估计代替缺失值；
去重： 相等的记录合并为一条记录；
解决错误值： 用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或者回归方程的值，也可以用简单规则库（常识性规则，业务特定规则等）检查数据值，或使用不同属性的约束、外部的数据来检测和清理数据；
解决数据的不一致性： 比如数据是类别型或者次序性——离散型数据。

1、删除多列；
2、更改数据类型；
3、将分类变量转成数字变量；
4、检查缺失数据；
5、删除列中的字符串；
6、删除列中的空格；
7、用字符串连接两列；
8、转换时间截（从字符串转到时间格式）

1、对数变换
2、标准缩放
3、转换数据类型
4、独热编码
5、标签编码

.pandas_profiling

推荐一个python的库函数：pandas_profiling
pandas_profiling 主要用于将文本数据可视化，代码如下：
通过ppf.ProfileReport(train_data）生成一个报告文件，再将该报告文件用to_file(path)转成网页格式文件，打开html文件即可看到文本数据详情。
在生成的报告中，库函数已经生成每个样本的分布情况，异常值和缺失值等情况一眼望穿。
下图可以看出，数据分布不均匀。
下图可以看出，数据缺失情况。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190814154414466.png
上面仅列举出明显需要数据清洗的情况，当然，在生成报告中还有很多其他指标，这些指标对前期的特征工程十分有利！
第二个python的库函数：seaborn (http://seaborn.pydata.org/)。seaborn是matplotlib的更高级的API封装，也可以说是matplotlib的升级版。这里仅使用一条语句来说明箱型图的使用方法：
sns.boxplot(a,b)入口参数传入数据集的两列，plt.show()显示出数据图如下：
途中的星型的点便是异常值，使用pandas对这些异常值drop掉。
第三种清洗方法使matplotlib绘图。离群点对算法影响较大，所以有必要将离群点drop掉。使用scatter()画出数据分布图，从该图上可以明显看出离群点。以训练集中的一个属性为例，观察该样本的分布：
从图中可以明显看到圈中的点为离群点，必须将此drop掉：

关注