使用scikit-learn对特征进行归一化和标准化

最新推荐文章于 2024-07-30 20:31:43 发布

修炼之路

最新推荐文章于 2024-07-30 20:31:43 发布

阅读量2.6w

点赞数 8

分类专栏： scikit-learn修炼之路 python机器学习实战

本文链接：https://blog.csdn.net/sinat_29957455/article/details/79490165

版权

python机器学习实战同时被 2 个专栏收录

43 篇文章 835 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

scikit-learn修炼之路

22 篇文章 3 订阅

订阅专栏

特征缩放是提升机器学习模型性能的关键步骤，特别是对于梯度下降和k近邻等算法。scikit-learn提供了归一化和标准化两种方法。归一化通过最大最小值将特征范围缩放到[0,1]，而标准化则利用平均值和标准差使特征符合标准正态分布，均值为0，方差为1。葡萄酒数据集被用作示例来展示如何使用scikit-learn进行标准化处理。" 123036957,11614198,Git分支管理详解,"['git', '版本控制', '代码管理']

摘要由CSDN通过智能技术生成

一、为什么需要进行特征缩放？

因为对于大多数的机器学习算法和优化算法来说，将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言，例如有两个不同的特征，第一个特征的取值范围为1~10，第二个特征的取值范围为1~10000。在梯度下降算法中，代价函数为最小平方误差函数，所以在使用梯度下降算法的时候，算法会明显的偏向于第二个特征，因为它的取值范围更大。在比如，k近邻算法，它使用的是欧式距离，也会导致其偏向于第二个特征。对于决策树和随机森林以及XGboost算法而言，特征缩放对于它们没有什么影响。

二、常用的特征算法缩放有哪些？

常用的特征缩放算法有两种，归一化(normalization)和标准化(standardization)。归一化算法是通过特征的最大最小值将特征缩放到[0,1]区间范围内，而多于许多机器学习算法，标准化也许会更好，标准化是通过特征的平均值和标准差将特征缩放成一个标准的正态分布，均值为0，方差为1。接下来我们就通过scikit-learn提供的方法对于葡萄酒的数据集进行标准化处理。