1.引言
K-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。
K-means算法中的
![equation?tex=K](https://i-blog.csdnimg.cn/blog_migrate/645746d864e3144aca3385aec15a6678.png)
![equation?tex=means](https://i-blog.csdnimg.cn/blog_migrate/48dbb1c947408c8322a99bab9ee4ed98.png)
2.K-means算法原理
K-means算法以距离作为数据对象间相似性度量的标准,通常采用欧氏距离来计算数据对象间的距离。下面给出欧式距离的计算公式 (
![equation?tex=x](https://i-blog.csdnimg.cn/blog_migrate/79271a73b75b1b2971964504afad8a27.png)
![equation?tex=m](https://i-blog.csdnimg.cn/blog_migrate/f79ab5c40ded11a5ecf9c3162bbd89d5.png)
![equation?tex=dist%28x_%7Bi%7D%2Cx_%7Bj%7D%29%3D%5Csqrt%7B%28x_%7Bi%7D-x_%7Bj%7D%29%28x_%7Bi%7D-x_%7Bj%7D%29%5ET%7D+%5Ctag%7B1%7D](https://i-blog.csdnimg.cn/blog_migrate/db7947d8ac9b9ebbb2e1440abb29b1d8.png)
K-means算法聚类过程中,每次迭代,对应的类簇中心需要重新计算(更新):对应类簇中所有数据对象的均值,即为更新后该类簇的类簇中心。定义第
![equation?tex=K](https://i-blog.csdnimg.cn/blog_migrate/645746d864e3144aca3385aec15a6678.png)
![equation?tex=Center_k](https://i-blog.csdnimg.cn/blog_migrate/88ac645eee54fb10e9f91beed5be08da.png)