文章部分内容参考自https://captainbed.net
数据清洗
数据清洗概述
数据对于算法来说,就好比石油对于汽车。但石油也是提炼于原油,需要花费很大的功夫进行开采、提炼。
同样,作为一名机器学习工程师,大量的时间就要用于清洗数据,把最原始的数据清理为我们的算法模型可以直接用来训练的数据。
常用手段
简单介绍几个数据清洗手段:
缩放特征值
指缩小特征值的范围,留下一些高价值的特征值,删除一些用处不是很大的特征值。其有点如下:
- 使梯度下降算法更加迅速地收敛
- 避免NaN陷阱(超出精度范围)
- 帮助模型为特征确定合适的权重
清查
简单来说就是手动检查一遍所有的数据,现实生活中的数据往往会有很多问题。例如:
- 遗漏值
例如,有人忘记为某个房屋的年龄输入值。 - 重复样本
例如,服务器错误地将同一条记录上传了两次。 - 不良标签。
例如,有人错误地将一颗橡树的图片标记为枫树。 - 不良特征值。
例如,有人输入了多余的位数
很多研究生干的都是这个事。