机器学习笔记15-数据预处理

最新推荐文章于 2022-04-06 15:37:25 发布

handsome_happy

最新推荐文章于 2022-04-06 15:37:25 发布

阅读量822

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_32201847/article/details/73480208

版权

本文介绍了机器学习中数据预处理的重要步骤，包括转换倾斜的连续特征，如对数转换以处理异常值；规一化数字特征，确保不同特征间的平等对待；对非数字特征进行独热编码；以及数据的混洗和切分。此外，讨论了使用准确率和F-beta score作为模型评价标准。

摘要由CSDN通过智能技术生成

转换倾斜的连续特征

一个数据集有时可能包含至少一个靠近某个数字的特征，但有时也会有一些相对来说存在极大值或者极小值的不平凡分布的的特征。算法对这种分布的数据会十分敏感，并且如果这种数据没有能够很好地规一化处理会使得算法表现不佳。

对于高度倾斜分布的特征如'capital-gain'和'capital-loss'，常见的做法是对数据施加一个对数转换，将数据转换成对数，这样非常大和非常小的值不会对学习算法产生负面的影响。并且使用对数变换显著降低了由于异常值所造成的数据范围异常。但是在应用这个变换时必须小心：因为0的对数是没有定义的，所以我们必须先将数据处理成一个比0稍微大一点的数以成功完成对数转换。

规一化数字特征

除了对于高度倾斜的特征施加转换，对数值特征施加一些形式的缩放通常会是一个好的习惯。在数据上面施加一个缩放并不会改变数据分布的形式（比如上面说的'capital-gain' or 'capital-loss'）；但是，规一化保证了每一个特征在使用监督学习器的时候能够被平等的对待。注意一旦使用了缩放，观察数据的原始形式不再具有它本来的意义了，就像下面的例子展示的。

from sklearn.preprocessing import MinMaxScaler

# 初始化一个 scaler，并将它施加到特征上
scaler = MinMaxScaler()
numerical = ['age', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']
features_raw[numerical] = scaler.fit_transform(data[numerical])