归一化处理公式_树形结构为什么不需要归一化,树模型为什么是不能进行梯度下降...

参考:

树模型为什么是不能进行梯度下降​blog.csdn.net 七月在线:树形结构为什么不需要归一化?​zhuanlan.zhihu.com
e8e9ea39dab1f1a0a716e14c2128b046.png

概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、rf。

而像adaboost、svm、lr、KNN、KMeans之类的最优化问题就需要归一化。

对于树形结构为什么不需要归一化?机器学习 ML基础 易

答:因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。
按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。

而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。所以树模型(回归树)寻找最优点是通过寻找最优分裂点完成的


既然树形结构(如决策树、RF)不需要归一化,那为何非树形结构比如Adaboost、SVM、LR、Knn、KMeans之类则需要归一化呢?
对于线性模型,特征值差别很大时,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。
但是如果进行了归一化,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要的迭代次数较少。
除了归一化,我们还会经常提到标准化,那到底什么是标准化和归一化呢?
标准化:特征均值为0,方差为1
公式:

325ab6ec214da98ecf2c1d0c3d01deda.png


归一化:把每个特征向量(特别是奇异样本数据)的值都缩放到相同数值范围,如[0,1]或[-1,1]。
最常用的归一化形式就是将特征向量调整为L1范数(就是绝对值相加),使特征向量的数值之和为1。
而L2范数就是欧几里得之和。
data_normalized = preprocessing.normalize( data , norm="L1" )
公式:

37efcd7b185f49043d6496a56b8c3a14.png


这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级(同一量纲),提高不同特征数据的可比性。

特征是否必须要归一化,请结合逻辑回归和决策树算法做简要分析。

特征是否必须要归一化,请结合逻辑回归和决策树算法做简要分析。_乐信笔试题_牛客网​www.nowcoder.com
9a3f1a61ef110eef5f9f13eb92e48935.png

1、一般算法如果本身受量纲影响较大,或者相关优化函数受量纲影响大,则需要进行特征归一化。

逻辑回归本身不受量纲影响,但是其使用梯度下降法求解参数受量纲影响大,如果不进行特征归一化,可能由于变量不同量纲导致参数迭代求解缓慢,影响算法速率。

对于决策树这类的算法,不受量纲影响,不需要进行归一化处理。

2、树模型特征归一化可能会降低模型的准确率,但是能够使模型更加平稳

想请问一下同样是树结构,为什么随机森林不需要对数据进行归一化,GBDT需要对数据进行归一化呢

请问为什么GBDT需要对数据进行归一化_技术交流_牛客网​www.nowcoder.com

因为GBDT的树是在上一颗树的基础上通过梯度下降求解最优解,归一化能收敛的更快,GBDT通过减少bias来提高性能,而随机森林本来就是通过减少方差提高性能的,树之间建立关系是独立的,不需要归一化

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值