常用距离
- 曼哈顿距离
- 切比雪夫距离
- 欧氏距离
K-means算法
算法流程:
- 选择聚类的个数k.
- 任意产生k个聚类,然后确定聚类中心,或者直接生成k个中心。
- 对每个点确定其聚类中心点。
- 再计算其聚类新中心。
- 重复以上步骤直到满足收敛要求。(通常就是确定的中心点不再改变。),能收敛是因为EM算法
流程如下图:
初始超参数给得不恰当时:
- K值的确定(记住这一点)
轮廓系数法
凡是基于距离的算法,都会受到离群点的影响
改进初始值不好情况(上面有图):
- 二分K-Means
- 逐步聚拢方法(把分出的每个类的中心作为初始值喂给K-Means)
应用场景
- 离散化(没太懂)
- 取出离群点
KNN算法(K-nearestNeighbor)
KNN是有监督算法,没有迭代的过程,可以用来填充缺失值
贝叶斯算法
- 贝叶斯网络(条件概率P(B|A)用在这上面)
- 马尔科夫网络
- 边缘分布
- 联合分布