可能是最全的数据标准化教程(附python代码)

数据标准化是消除量纲影响、提升分析可靠性的关键步骤,包括线性归一化、标准差标准化和非线性归一化等方法。线性归一化将数据映射到[0,1]或[-1,1],标准差标准化使数据符合标准正态分布,非线性归一化则采用对数或反余切等函数转换。在梯度下降和距离计算中,标准化能提高精度和加速收敛。" 112039571,10537931,语音写作App测评:百度、搜狗、讯飞对比,"['语音识别', '写作工具', '移动应用', 'APP评测']
摘要由CSDN通过智能技术生成

什么是数据标准化(归一化)

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。为了消除指标之间的量纲影响,保证结果的可靠性,需要进行数据标准化处理,以解决数据指标之间的可比性。

为什么要数据归一化:

1)归一化后加快了梯度下降求最优解的速度;
当存在多个特征时,如果特征数据范围不一致,可能会导致梯度下降的路径摇摆不定,效率低下。
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;


1670644-2b87fba30d7d8c39.jpg
  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值