机器学习(十)----聚类的扩展
这篇文章主要讲解以下知识点:
- 估计聚类趋势(判定数据集是否真的适合用做聚类)
- 簇数制定(数据集分成K类,K的确定)
- 评估聚类质量(聚类效果好不好)
- 模糊聚类
- 离群值检测(异常检测、孤立点检测)
估计聚类趋势(聚类工作第一步)
均匀分布以及随机分布的点集一般聚类是没有什么意义的,那如何评估?
霍普金斯统计量:空间统计量,检验空间随机性
相关解读(一般霍普金斯统计量越接近于0,证明数据集聚类有意义)
簇数制定
平时一般簇数制定都是根据分析师的经验来制定的,但是其实还是有一些办法的,比如:
- 经验判断,例如样本点数目为n,则取k=sqrt(n/2)
- 肘方法