第十五章 Kmeans聚类
01 Kmeans聚类的思想和原理
模型介绍
对于有监督的数据挖掘算法而言,数据集中需要包含标签变量(即因变量y
的值)。但在有些场景下,并没有给定的y
值,对于这类数据的建模,一般称为无监督的数据挖掘算法,最为典型的当属聚类算法。Kmeans
聚类算法利用距离远近的思想将目标数据聚为指定的k
个簇,进而使样本呈现簇内差异小,簇间差异大的特征。
聚类过程
- 从数据中随机挑选个样本点作为原始的簇中心
- 计算剩余样本与簇中心的距离,并把各样本标记为离个簇中心最近的类别
- 重新计算各簇中样本点的均值,并以均值作为新的个簇中心
- 不断重复第二步和第三步,直到簇中心的变化趋于稳定,形成最终的个簇
原理介绍
在Kmeans
聚类模型中,对于指定的个簇,只有簇内样本越相似,聚类效果才越好。基于这个思想,可以理解为簇内样本的离差平方和之和达到最小即可。进而可以衍生出Kmeans
聚类的目标函数:其中,表示第个簇的簇中心,属于第个簇的样本,表示第个簇的样本总量。对于该目标函数而言,是未知的参数,要想求得目标函数的最小值,得先知道参数的值。
求解参数
对目标函数求偏导令导函数为0