特征工程之特征缩放&特征编码

最新推荐文章于 2023-12-18 15:23:49 发布

spearhead_cai

最新推荐文章于 2023-12-18 15:23:49 发布

阅读量2.4k

点赞数 2

分类专栏：机器学习特征工程如何构建一个完整的机器学习项目文章标签：特征工程特征编码特征缩放机器学习 one-hot

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lc013/article/details/87646607

版权

本文介绍了特征缩放和特征编码在机器学习中的重要性。特征缩放包括归一化和正则化，用于消除量纲影响和加速模型训练。归一化方法如Min-Max Scaling和Z-Score Normalization，而正则化则通过范数缩放改善模型性能。特征编码涉及序号编码、独热编码、二进制编码和离散化等，其中独热编码常用于处理类别型特征，而离散化有助于提升模型稳定性。

摘要由CSDN通过智能技术生成

机器学习入门系列（2）–如何构建一个完整的机器学习项目，第五篇！

该系列的前四篇文章：

本篇文章会继续介绍特征工程的内容，这次会介绍特征缩放和特征编码，前者主要是归一化和正则化，用于消除量纲关系的影响，后者包括了序号编码、独热编码等，主要是处理类别型、文本型以及连续型特征。

3.2 特征缩放

特征缩放主要分为两种方法，归一化和正则化。

3.2.1 归一化

归一化(Normalization)，也称为标准化，这里不仅仅是对特征，实际上对于原始数据也可以进行归一化处理，它是将特征（或者数据）都缩放到一个指定的大致相同的数值区间内。
归一化的两个原因：

某些算法要求样本数据或特征的数值具有零均值和单位方差；
为了消除样本数据或者特征之间的量纲影响，即消除数量级的影响。如下图所示是包含两个属性的目标函数的等高线
- 数量级的差异将导致量级较大的属性占据主导地位。从下图左看到量级较大的属性会让椭圆的等高线压缩为直线，使得目标函数仅依赖于该属性。
- 数量级的差异会导致迭代收敛速度减慢。原始的特征进行梯度下降时，每一步梯度的方向会偏离最小值（等高线中心点）的方向，迭代次数较多，且学习率必须非常小，否则非常容易引起宽幅震荡。但经过标准化后，每一步梯度的方向都几乎指向最小值（等高线中心点）的方向，迭代次数较少。
- 所有依赖于样本距离的算法对于数据的数量级都非常敏感。比如 KNN 算法需要计算距离当前样本最近的 k 个样本，当属性的量级不同，选择的最近的 k 个样本也会不同。

图来自《百面机器学习》

常用的两种归一化方法：

线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换，使得结果映射到[0,1]的范围，实现对原始数据的等比缩放，公式如下：

$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$

其中 X 是原始数据， $X_{max}, X_{min}$

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

spearhead_cai 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。