归一化笔记

归一化是消除数据量纲影响,改善算法性能的关键步骤。包括线性比例变换、极差变换和z-score标准化等方法,其中z-score考虑了所有数据信息。KNN、线性回归等需归一化,而决策树、随机森林等树形模型则无需归一化,因它们关注变量分布而非具体数值。
摘要由CSDN通过智能技术生成

目录

为什么要归一化?

归一化的方法有哪些?

归一化各方法特点?

归一化的意义?

哪些机器学习算法需要做归一化?

哪些机器学习算法不需要做归一化?


为什么要归一化?

因为每一列数据的量纲不同,导致数据分布区间区间存在差异。举例:(人的身高可以是180cm,也可以是1.8m,这两个虽然表示意义相同,但是由于单位的不同,导致机器学习在计算过程中也容易出现差异,所以就需要对数据进行归一化)。

归一化的方法有哪些?

→线性比例变换法:

y_{i} = \frac{x_{i}}{max(x))}

→极差变换法:

y_{i} = \frac{x_{i} - min(x)}{max(x)-min(x)}

→0均值标准化(z-score方法)

y_{i} = \frac{x_{i} - mean(x)}{\sigma },\sigma是标准差

归一化各方法特点?

→线性比例变换法 and 极差变换法

特点:将原始数据线性化的方法转换到[0,1]的范围,该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值(或者最大值)将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响,改变变量在分析中的权重来解决不同度量的问题。由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。

→0均值标准化(z-score方法)

特点:即每一变量值与其平均值之差除以该变量的标准差。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。而实际分析中,经常根据各变量在不同单位间取值的差异程度大小来决定其在分析中的重要性程度,差异程度大的其分析权重也大。

归一化的意义?

每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。

哪些机器学习算法需要做归一化?

基于距离计算的模型:KNN

通过梯度下降法求解的模型:线性回归、逻辑回归、支持向量机、神经网络

哪些机器学习算法不需要做归一化?

树形模型:决策树、随机森林

原因1:它们不关心变量的值,而是关心变量的分布和变量之间的条件概率

原因2:因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值