归一化问题总结-七月在线（一）_归一化形式综合问题-CSDN博客

本文链接：https://blog.csdn.net/qq_17846375/article/details/100125047

1.哪些机器学习算法不需要做归一化处理？并叙述归一化的过程。

2.对于树形结构为什么不需要归一化？

3.在k-means或kNN，我们常用欧氏距离来计算最近的邻居之间的距离，有时也用曼哈顿距离，请对比下这两种距离的差别

4.数据归一化（或者标准化，注意归一化和标准化不同）的原因

5.机器学习中，为何经常要对数据归一化？

6.归一化、标准化和正则化的关系

7.归一化、标准化的主要方法

1.哪些机器学习算法不需要做归一化处理？并叙述归一化的过程。

概率模型（树形模型）不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。

标准化：特征均值为0，方差为1

公式：

归一化：把每个特征向量（特别是奇异样本数据）的值都缩放到相同数值范围。如[0,1]或[-1,1]。最常用的归一化形式就是将特征向量调整为L1范数（就是绝对值相加），使特征向量的数值之和为1。L2范数就是欧几里得之和。

data_normalized = preprocessing.normalize( data , norm="L1" )

公式：

这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异，即确保数据处于同一数量级（同一量纲），提高不同特征数据的可比性。

2.对于树形结构为什么不需要归一化？

因为数值缩放不影响分裂点位置，对树形模型的结构不造成影响。按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。而且，树形模型是不能进行梯度下降的，因为构建树形模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树形模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。

3.在k-means或kNN，我们常用欧氏距离来计算最近的邻居之间的距离，有时也用曼哈顿距离，请对比下这两种距离的差别

欧氏距离，最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为：

欧氏距离虽然很有用，但也有明显的缺点。它将样本的不同属性（即各指标或各变量量纲）之间的差别等同看待（忽略了单位），这一点有时不能满足实际要求。例如，在教育研究中，经常遇到对人的分析和判别，个体的不同属性对于区分个体有着不同的重要性。因此，欧氏距离适用于向量各分量的度量标准统一的情况。

曼哈顿距离（城市距离），我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上，坐标（x1, y1）的点P1与坐标（x2, y2）的点P2的曼哈顿距离为：，要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在坐标轴上的平移或映射。当坐标轴变动时，点间的距离就会不同。通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”，这也是曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。 曼哈顿距离和欧式距离一般用途不同，无相互替代性。