传统机器学习——特征工程之数据清洗

前言

学习了这么长时间的理论知识,开始着手理论联系实践了。
先总结一些基本的特征工程中数据清洗的基本套路,具体实现会在以后给出。
声明:关于编程语法相关问题不会展开论述,本文只针对方法路线。

数据清洗方法

  1. 解决缺失值: 平均值、最大值、最小值或者更为复杂的的概率估计代替缺失值;
  2. 去重: 相等的记录合并为一条记录;
  3. 解决错误值: 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或者回归方程的值,也可以用简单规则库(常识性规则,业务特定规则等)检查数据值,或使用不同属性的约束、外部的数据来检测和清理数据;
  4. 解决数据的不一致性: 比如数据是类别型或者次序性——离散型数据。

数据清洗的八大场景

1、删除多列;
2、更改数据类型;
3、将分类变量转成数字变量;
4、检查缺失数据;
5、删除列中的字符串;
6、删除列中的空格;
7、用字符串连接两列;
8、转换时间截(从字符串转到时间格式)

数据处理方法

1、对数变换
2、标准缩放
3、转换数据类型
4、独热编码
5、标签编码

数据可视化工具

  1. .pandas_profiling

    推荐一个python的库函数:pandas_profiling
    pandas_profiling 主要用于将文本数据可视化,代码如下:
    在这里插入图片描述 通过ppf.ProfileReport(train_data)生成一个报告文件,再将该报告文件用to_file(path)转成网页 格式文件,打开html文件即可看到文本数据详情。
    在生成的报告中,库函数已经生成每个样本的分布情况,异常值和缺失值等情况一眼望穿。
    在这里插入图片描述下图可以看出,数据分布不均匀。
    在这里插入图片描述下图可以看出,数据缺失情况。
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190814154414466.png
    上面仅列举出明显需要数据清洗的情况,当然,在生成报告中还有很多其他指标,这些指标对前期的特征工程十分有利!

  2. 第二个python的库函数:seaborn (http://seaborn.pydata.org/)。seaborn是matplotlib的更高级的API封装,也可以说是matplotlib的升级版。这里仅使用一条语句来说明箱型图的使用方法:
    在这里插入图片描述sns.boxplot(a,b)入口参数传入数据集的两列,plt.show()显示出数据图如下:
    在这里插入图片描述途中的星型的点便是异常值,使用pandas对这些异常值drop掉。

  3. 第三种清洗方法使matplotlib绘图。离群点对算法影响较大,所以有必要将离群点drop掉。使用scatter()画出数据分布图,从该图上可以明显看出离群点。以训练集中的一个属性为例,观察该样本的分布:在这里插入图片描述
    在这里插入图片描述从图中可以明显看到圈中的点为离群点,必须将此drop掉:
    在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值