python scale标准化函数_归一化与标准化

本文详细介绍了特征缩放的重要性,特别是对于机器学习算法的影响。讨论了两种常见的特征缩放方法——归一化和标准化,包括它们的目的、优缺点以及在Python中如何使用`sklearn.preprocessing`库进行实现。归一化通过min-max方法将数据缩放到[0,1]区间,而标准化则使数据服从标准正态分布,均值为0,方差为1。这两种方法在不同的场景下各有优势,例如在距离敏感的算法中,标准化通常更优。" 103780725,9035024,Java对象的输入输出流实战与注意事项,"['Java', 'IO流', '序列化']
摘要由CSDN通过智能技术生成

(一) 特征缩放定义特征缩放是用来统一资料中的自变项或特征范围的方法,在资料处理中,通常会被使用在资料前处理这个步骤。因为在原始的资料中,各变数的范围大不相同。

(二) 特征缩放的目的对于大多数的机器学习算法和优化算法来说,将特征值缩放到相同区间可以使得获取性能更好的模型。

例如:

(a)有两个不同的特征,第一个特征的取值范围为1~10,第二个特征的取值范围为1~10000。在梯度下降算法中,代价函数为最小平方误差函数,所以在使用梯度下降算法的时候,算法会明显的偏向于第二个特征,因为它的取值范围更大。

(b)k近邻算法,它使用的是欧式距离,也会导致其偏向于第二个特征。对于决策树和随机森林以及XGboost算法而言,特征缩放对于它们没有什么影响。

(三) 常用特征缩放方法常用的特征缩放算法有两种,归一化(normalization)和标准化(standardization)

1. 归一化(a)归一化是利用特征的最大值,最小值,将特征的值缩放到[0,1]区间,对于每一列的特征使用min - max函数进行缩放。

(b) 归一化可以消除纲量,加快收敛。不同特征往往具有不同的量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于[0,1]之间的小数,适合进行综合对比评价。

(c) 归一化可能模型提高精度。

(1)min-max标准化(Min-max normalization)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值