K均值聚类--利用k-means算法分析NBA近四年球队实力_k-means对对nba球队进行聚类-CSDN博客

本文通过k-means算法对NBA近四年的球队实力进行聚类分析，将30支球队分为5个集团。首先对数据进行规范化，然后设置k=5，以勇士等五支球队的战绩作为初始中心点，经过多次迭代得到最终聚类结果，揭示了球队间的实力分布情况。

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度，然后介绍一种常见的聚类算法——k-means算法，并利用k-means算法分析NBA近四年球队实力。因为本人比较喜欢观看NBA比赛，所以用这个当做例子了，通过这个例子大家可以用到各种实际的生活和生产环境中。
在正式讨论聚类前，我们要先弄清楚一个问题：如何定量计算两个可比较元素间的相异度。用通俗的话说，相异度就是两个东西差别有多大，例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度，这是能我们直观感受到的。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定义。
设 $X=\{x_1,x_2,...,x_n\},Y=\{y_1,y_2,...,y_n\}$ ，其中X，Y是两个元素项，各自具有n个可度量特征属性，那么X和Y的相异度定义为： $d(X,Y)=f(X,Y) \to R$ ，其中R为实数域。也就是说相异度是两个元素对实数域的一个映射，所映射的实数定量表示两个元素的相异度。下面介绍不同类型变量相异度计算方法：
1.标量
标量也就是无方向意义的数字，也叫标度变量。现在先考虑元素的所有特征属性都是标量的情况。例如，计算X={2,1,102}和Y={1,3,2}的相异度。一种很自然的想法是用两者的欧几里得距离来作为相异度，欧几里得距离的定义如下：
$d(X,Y)=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2}$
其意义就是两个元素在欧氏空间中的集合距离，因为其直观易懂且可解释性强，被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式，可得两者的欧氏距离为：
$d(X,Y)=\sqrt{(2-1)^2+(1-3)^2+(102-2)^2}=100.025$
除欧氏距离外，常用作度量标量相异度的还有曼哈顿距离和闵可夫斯基距离，两者定义如下：
曼哈顿距离： $d(X,Y)=|x_1-y_1|+|x_2-y_2|+...+|x_n-y_n|$
闵可夫斯基距离： $d(X,Y)=\sqrt[p]{(x_1-y_1)^p+(x_2-y_2)^p+...+(x_n-y_n)^p}$
欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在p=2和p=1下的特例。另外这三种距离都可以加权，这个很容易理解，不再赘述。
下面要说一下标量的规格化问题。上面这样计算相异度的方式有一点问题，就是取值范围大的属性对距离的影响高于取值范围小的属性。例如上述例子中第三个属性的取值跨度远大于前两个，这样不利于真实反映真实的相异度，为了解决这个问题，一般要对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间，这样是为了平衡各个属性对距离的影响。通常将各个属性