特征归一化详解

最新推荐文章于 2024-07-03 18:16:51 发布

youminglan

最新推荐文章于 2024-07-03 18:16:51 发布

阅读量543

点赞数

分类专栏：机器学习特征工程文章标签：机器学习 python 深度学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43485035/article/details/116885705

版权

机器学习同时被 2 个专栏收录

17 篇文章 5 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

特征归一化

场景描述：分析一个人的身高和体重对健康的影响，如果使用米和千克作为单位，那么身高特征就会在1.6 - 1.8m这样一个范围内，体重会在50 - 100kg的范围内，分析出来的结果显然会倾向于数值差别比较大的体重特征。如果想要得到更为精确的结果，就需要进行特征归一化处理。
问题：为什么需要对数值类型的特征做归一化？

因为可以通过对特征做归一化将所有特征都统一到一个大致相同的数值区间内。借助随机梯度下降的例子说明归一化的重要性。

假设有两种数值型特征， $X_{1}$ 的取值范围为 [0, 10]， $X_{2}$ 的取值范围为[0, 3]，于是可以构造一个目标函数符合图1.1（a）中的等值图。

在学习速率相同的情况下， $X_{1}$ 的更新速度会大于 $X_{2}$ ，需要用较多的迭代次数才能找到最优解。如果将 $X_{1}$ 和 $X_{2}$ 归一化到相同的数值区间后，优化目标的等值图会变成图中的圆形， $X_{1}$ 和 $X_{2}$ 的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。

常用的方法有以下两种：

（1）线性函数归一化(Min-Max Scaling)。函数将原始数据进行线性变换，使其结果映射到[0,1]的范围，实现对原始数据的等比缩放。

归一化公式： $X_{\text {norm }}=\frac{X-X_{\min }}{X_{\max }-X_{\min }}$

$x$ 为原始数据 $X_{\min } $ $X_{\max }$ 分别为数据的最小值和最大值。

（2）零均值归一化(Z-Score Normalization)。它将原始数据映射到均值为0、标准差为1的分布上。

归一化公式 $z=\frac{x-\mu}{\sigma}$

$μ$ 、 $σ$ 分别为原始数据集的均值和方法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。