聚类不断出现新算法 原因是聚类目前没有一个好的评价方式
kmeans 聚类算法步骤,1随机初始化k个聚类中心,计算每个样本到这些点的距离 ,如果一个点到初始点K1的距离最近,这个点会被聚类到这个点代表的簇,结果会生成n个簇,2重新计算每个簇的中心点(计算均值向量),重复1,2 直到(迭代次数达上限,mse达到指标要求)聚类中心稳定.超参数只有蔟数
k中值,k均值聚类抗噪声能力差,使用k中值聚类可以在一定程度上减少噪声对结果的影响
kmeans++ k均值聚类时,初始点是随意选定的,这种做法对最终结果的影响非常大,所以在初始化时可以随机初始化一个起始中心点剩余中心点根据其余点到此点的距离为正比的概率进行初始化.
层次聚类 对数据本身具有较高的层次性的数据有较好的效果,初始化时 将每个样本看做一个簇,每次迭代找出距离最近的两个簇进行合并,其中寻找最近的两个簇的方法有 最大距离,最小距离,距离均值,距离差平方和 等方案.
密度聚类 首先根据参数 r 和 p 找出所有的核心对象集合A,在A中随便找一个核心对象,将这个核心对象所有的密度可达的核心对象找出来生成簇c 将c从A清除,重复以上 知道A为空,算法结束, r和p为超参数.
谱聚类 算法步骤,求出邻接矩阵W,求出度矩阵D 求出拉布拉斯举证L 求出拉普拉斯矩阵的特征向量矩阵,如果要求聚类为K类则将前k个特征向量组成矩阵D,矩阵的每一行代表了元数据,对这个D进行普通的kmean聚类