归一化处理公式_树形结构为什么不需要归一化，树模型为什么是不能进行梯度下降...

最新推荐文章于 2024-06-24 18:02:39 发布

weixin_39827306

最新推荐文章于 2024-06-24 18:02:39 发布

阅读量591

点赞数

文章标签：归一化处理公式

本文链接：https://blog.csdn.net/weixin_39827306/article/details/111341569

版权

参考：

树模型为什么是不能进行梯度下降blog.csdn.net 七月在线：树形结构为什么不需要归一化？zhuanlan.zhihu.com

概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、rf。

而像adaboost、svm、lr、KNN、KMeans之类的最优化问题就需要归一化。

对于树形结构为什么不需要归一化？机器学习 ML基础易

答：因为数值缩放不影响分裂点位置，对树模型的结构不造成影响。
按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。

而且，树模型是不能进行梯度下降的，因为构建树模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。所以树模型（回归树）寻找最优点是通过寻找最优分裂点完成的

既然树形结构（如决策树、RF）不需要归一化，那为何非树形结构比如Adaboost、SVM、LR、Knn、KMeans之类则需要归一化呢？
对于线性模型，特征值差别很大时，比如说LR，我有两个特征，一个是(0,1)的，一个是(0,10000)的，运用梯度下降的时候，损失等高线是椭圆形，需要进行多次迭代才能到达最优点。
但是如果进行了归一化，那么等高线就是圆形的，促使SGD往原点迭代，从而导致需要的迭代次数较少。
除了归一化，我们还会经常提到标准化，那到底什么是标准化和归一化呢？
标准化：特征均值为0，方差为1
公式：

归一化：把每个特征向量（特别是奇异样本数据）的值都缩放到相同数值范围，如[0,1]或[-1,1]。
最常用的归一化形式就是将特征向量调整为L1范数（就是绝对值相加），使特征向量的数值之和为1。
而L2范数就是欧几里得之和。
data_normalized = preprocessing.normalize( data , norm="L1" )
公式：