第九章——K-means
9.1 聚类介绍
1、聚类的介绍
- 无监督学习模型的样本是没有标签的,没有标签的样本可以通过聚类分析进行利用。
- 聚类分析:聚类分析可以把样本中拥有相似特性的样本聚在一起,将样本分成几大类。
- 简而言之:可以被利用的样本是需要被分类的,聚类分析中的样本不用贴标签,因为它利用的是样本本身的特性。
- K-means是聚类分析中的一个流行万能算法。
2、聚类的应用场景
- 举例:图像分割(风景图被分割成山、水、蓝天、白云)
3、K-means的迭代过程
- 两个步骤:
① 根据给定的中心点计算每个样本的所属类别(cluster),此过程结束后每个样本就会有属于自己的类别;
② 把所有类别的样本分别去取出,并进行平均值计算,平均值将作为该类新的中心点。 - K-means如何初始化中心点?
答:随机选择k个点,作为初始的中心点,每个点代表一个group。