庖丁解牛-特征归一化/标准化

最新推荐文章于 2024-06-19 11:46:34 发布

Guan Tongpeng

最新推荐文章于 2024-06-19 11:46:34 发布

阅读量156

点赞数

分类专栏：庖丁解牛文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39280836/article/details/118095956

版权

庖丁解牛专栏收录该内容

1 篇文章 0 订阅

订阅专栏

为什么要对特征做归一化/标准化？

统一量纲，对于距离敏感性模型能够提升精度（如K-means、KNN、PCA、SVM），对基于梯度下降的模型能加快收敛（如线性回归、逻辑回归、神经网络）。

为什么对于基于距离的模型能够提升精度？

不同的特征的数量级不同，如果不使用标准化/归一化，原始数量级大的特征可能会对模型输出造成较大影响，而数量级小的特征可能对于模型输出影响较小。也即模型要学习到：在特征同等重要的情况下，对数量级大的特征分配一个小的权重，对数量级小的特征分配一个大的权重。归一化之后可以优化这一过程，降低了模型的学习难度，让模型只需要学习到对重要特征赋予更大的权重，而对于不重要的特征赋予较小的权重即可，因此基于距离的模型能够在归一化之后提升模型精度。

为什么基于梯度下降的模型能加快收敛？

原始特征下，因尺度差异，这就导致了很可能不同特征需要学习的权重差别也会很大，其损失函数的等高线图就可能是椭圆形，梯度方向垂直于等高线，下降会走之字形路线，而不是指向local minimum。通过对特征进行zero-mean and unit-variance变换后，其损失函数的等高线图更接近圆形，梯度下降的方向震荡更小，收敛更快。

对于树模型是否需要做归一化，为什么？

不需要，因为数值缩放不影响分裂点位置，对树模型的结构不造成影响。

常用的归一化方法如下：
min-max normalization： $x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}$

Mean normalization： $x^{\prime}=\frac{x-\bar{x}}{\max (x)-\min (x)}$

Standardization (Z-score Normalization)： $x^{\prime}=\frac{x-\bar{x}}{\sigma}$

Scaling to unit length： $x^{\prime}=\frac{x}{\|x\|}$

上述4种方式，前3种为逐行操作，最后1种为逐列操作。

留个问题：假设我们要基于特征（x1,x2,…xn）来预测y，我们已知y=x1+x2+…+xn，且x1,x2,xn之间数量级差别很大，现在我们要建立一个模型来通过x预测y，你觉得是否应该进行归一化？
参考：https://www.cnblogs.com/shine-lee/p/11779514.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
庖丁解牛-特征归一化/标准化

为什么要对特征做归一化/标准化？统一量纲，对于距离敏感性模型能够提升精度（如K-means、KNN、PCA、SVM），对基于梯度下降的模型能加快收敛（如线性回归、逻辑回归、神经网络）。为什么对于基于距离的模型能够提升精度？不同的特征的数量级不同，如果不使用标准化/归一化，原始数量级大的特征可能会对模型输出造成较大影响，而数量级小的特征可能对于模型输出影响较小。也即模型要学习到：在特征同等重要的情况下，对数量级大的特征分配一个小的权重，对数量级小的特征分配一个大的权重。归一化之后可以优化这一过程，降低了
复制链接

扫一扫

专栏目录

Guan Tongpeng CSDN认证博客专家 CSDN认证企业博客

码龄7年

46: 原创

38万+: 周排名

9万+: 总排名

4万+: 访问

: 等级

659: 积分

78: 粉丝

44: 获赞

21: 评论

166: 收藏

私信

关注

热门文章

分类专栏

AI 14篇
编程工具 7篇
python 12篇
debug 1篇
数据库 1篇
开源库解读 1篇
庖丁解牛 1篇
学习材料 1篇
论文笔记 4篇
C/C++
图解算法笔记 2篇

最新评论

wsl环境下docker报错：Cannot connect to the Docker daemon
张叫兽的技术研究院: 赞！可以不依赖于Docker Desktop实现docker的守护进程。
三分类SHAP图（特征标准化之后怎么画）
m0_69333497: 你好，请问标准化数据后计算的shap值可以还原成原来的数据值计算的shap值吗
三分类SHAP图（特征标准化之后怎么画）
KevinIvan: 你好，请问三分类计算出来的shap_value是三组二维array吗？如果是三组数据的话怎么确定shap_value[0]对应的是哪个标签呢？比如我的shap_value的shape是（3，300，12），应该在shap_value取0,1,2的时候均能绘制全局图或者条形图，但是问题是怎么确定当索引为0的时候对应的是哪个类别标签？
三分类SHAP图（特征标准化之后怎么画）
Guan Tongpeng: 那我也不知道啦，或许你可以把前三行代码去掉试试看是否可行
三分类SHAP图（特征标准化之后怎么画）
mizilili: 你好方便再请教一下吗？我用的是下面的代码，show=False还是保存空白 fig=plt.gcf() fig.set_facecolor('white') fig.set_size_inches(6,4) shap.dependence_plot("O3", shap.values, X), interaction_index='PM2.5', show = False) fig.savefig(nb_name+"_SHAP_O3.png", dpi=500)

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。