无监督聚类
K-means算法可以被视为高斯混合模型(GMM)的一种特殊形式
K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
数据预处理
对数据进行归一化
模型表示
给定样本集 D = { x 1 , . . . , x m } D=\{x_1,...,x_m\} D={ x1,...,xm},针对聚类所得簇划分 C = { C 1 , . . . , C k } C=\{C_1,...,C_k\} C={ C1,..