python数据标准化的目的_数据标准化的方法与意义

数据标准化是机器学习和深度学习中重要的预处理步骤,它包括归一化和无量纲化等方法。通过标准化,可以解决数值大小对算法的影响,如在SVM和神经网络中的必要性,加速优化过程,以及处理不同单位或量级的数据。常用的标准化方法有min-max标准化、z-score标准化、atan函数标准化和log函数标准化,每种方法都有其适用场景和局限性。
摘要由CSDN通过智能技术生成

含义

数据标准化和归一化存在区别

数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上.

数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.

意义

求解需要

比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不然会对准确率产生很大的影响,具体点说,比如避免出现因为数值过大导致c,g取值超过寻优范围

除此之外,最明显的是在神经网络中的影响,主要有四个层面

有利于初始化的进行

避免给梯度数值的更新带来数值问题

有利于学习率数值的调整

搜索轨迹:加快寻找最优解速度

具体情况请参考:神经网络为什么要归一化:

没有归一化前,寻找最优解的过程:

归一化后的过程:

3. 无量纲化(业务上需求上的):

指去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行和加权.

比如身高与体重,房子数量与收入等.

4. 数值问题

不归一化的数值,比如浮点数可能会产生数值不相等的问题.

5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)

常用公式

min-max标准化(Min-max normalization)

又名离差标准化,是对原始数据的线性转化,公式如下

含义: max : 样本最大值; min: 样本最小值;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值