应用
评价指标
距离
k-means算法
前提要选取k个点
重心点不变了就可以。
存在的问题
1、初始点
2、k,从1开始试,慢慢增加,看趋势
聚类之前需要做的事
!!!一定要归一化,不同维度的值统一到一个范围中。
以及均值中心化。
2、k-means++
这里的概率就是用轮盘赌算法
对于数值型的,可以算距离;对于离散的属性,怎么算距离?
K-prototype
为了防止分类距离对整体距离的影响
还与分类属性的取值频度也有关系,比如某个属性上样本之间取值都一样,但是并不代表没有距离。
快速峰值密度搜索聚类
假设
每个点画个圈,数点表示密度;
离另一个密度大的点的距离
B图是决策图
聚类中心点自动剔除,以及删除异常点。
快,体现在只算一次。