sklearn中为什么需要对数据进行缩放

最新推荐文章于 2023-11-15 04:43:39 发布

中小学生

最新推荐文章于 2023-11-15 04:43:39 发布

阅读量820

点赞数

分类专栏： sklearn 文章标签：为什么进行特征缩放

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26449287/article/details/103289367

版权

sklearn 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

为什么要做特征缩放

大多数情况下，你的数据集将包含在大小、单位和范围上差别很大的特征。但是，由于大多数机器学习算法在计算中使用两个数据点之间的欧氏距离，这会是一个问题。

如果不加考虑，这些算法只考虑特征的大小而忽略了单位。在5kg和5000gms不同的单元之间，结果会有很大的差异。在距离计算中，大尺度的特征比小尺度的特征要重要得多

在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放（feature scaling），比如：在随机梯度下降（stochastic gradient descent）算法中，特征缩放有时能提高算法的收敛速度。

特征缩放还可以使机器学习算法工作的更好。比如在K近邻算法中，分类器主要是计算两点之间的欧几里得距离，如果一个特征比其它的特征有更大的范围值，那么距离将会被这个特征值所主导。因此每个特征应该被归一化，比如将取值范围处理为0到1之间。

什么时候进行特征缩放

我在这里遵循的经验法则是任何计算距离或假设正常的算法，缩放你的特征!!

一些算法的例子，其中的特征缩放是很重要的：

k-最近邻具有欧氏距离度量，对大小敏感，因此应该对所有特征进行缩放，使其尺度相同。

主成分分析(PCA)，缩放是关键。主成分分析试图得到方差最大的特征，对于高幅值特征，方差较大。这使得PCA倾向于高幅值特征。

梯度下降可以通过缩放进行加速。这是因为θ在小尺度上会下降的很快，在大尺度上会很慢，所以，变量尺度不均匀的时候，在最优化的路径上会有震荡，效率下降。

基于树的模型不是基于距离的模型，可以处理不同范围的特性。因此，建模树时不需要缩放。

线性判别分析(LDA)、朴素贝叶斯等算法设计的时候就准备好了处理这一问题，并相应地赋予特征权重。在这些算法中执行特征缩放可能没有多大效果。

用那种缩放，sklearn中文教程有很多例子直接看代码应该就能懂。

https://sklearn.apachecn.org/docs/0.21.3/40.html 或者 https://www.cnblogs.com/chaosimple/p/4153167.html

参考博客https://blog.csdn.net/ycarry2017/article/details/85051740

https://blog.csdn.net/u011984148/article/details/99440115

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
sklearn中为什么需要对数据进行缩放

为什么要做特征缩放大多数情况下，你的数据集将包含在大小、单位和范围上差别很大的特征。但是，由于大多数机器学习算法在计算中使用两个数据点之间的欧氏距离，这会是一个问题。如果不加考虑，这些算法只考虑特征的大小而忽略了单位。在5kg和5000gms不同的单元之间，结果会有很大的差异。在距离计算中，大尺度的特征比小尺度的特征要重要得多在运用一些机器学习算法的时候不可避免地要对数据进行特征缩...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。