谈到相似性(距离),就不得不说归一化的问题了。在计算距离时,比如使用二范数,如果某个维度的数据范围特别大(0–1000),而另一个维度数据范围又很小(0–0.5),那么在计算距离的时候,范围大的对于距离的影响会特别大!也就是说范围大的数据对于距离的贡献特别大,这样会导致范围小的数据基本被忽略了,显然这不是我们想要的结果。所以,为了更好的计算相似性(也有可能有其他目的),我们必须对数据特征进行归一化。 关于数据归一化,可以看 这里