文章目录
一. 聚类
1.1 估计聚类的趋势
均匀分布的其实聚类没多大意义
随机分布的聚类会特别多的类,意义也不大
真正有意义的是聚群分布的,找出共同的类
1.2 霍普金斯统计量
1.3 簇数制定
肘方法
1.4 统计量的计算方法
1.5 评估聚类质量
Bcubed
轮廓系数
R语言聚类评估
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NLlLKsce-1656639913759)(https://upload-images.jianshu.io/upload_images/2638478-db82e380b611c4dc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]
1.6 基于概念模型聚类
1.6.1 一般情况下的EM算法
1.6.2 概念簇的例子
1.6.3 最大似然估计
二. 离群值检测
2.1 检测离群值的方法
- 基于统计学的方法
- 基于邻近的方法
- 基于聚类的方法
2.1.1 统计学方法:
一元离群值的Grubb检验:
多元离群值检验:
2.2 可能存在多个簇的复杂情形
离群值可能组成簇
2.1.2 直方图方法
2.1.3 基于邻域判断离群点
参考:
- http://www.dataguru.cn/article-4063-1.html