1、基本概念理解
无监督学习——通过无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
聚类——将数据集中的样本划分为若干个不相干的子集,每个子集称为一个“簇”,即类别。需要说明的是,聚类之前并不知道数据是属于哪一类的,我们就是要通过聚类来找出有哪些类别并把这些数据归类。
2、聚类的两个基本问题
2.1 性能度量
性能度量亦称有效性指标,一方面,我们需要通过某种性能度量来评价聚类结果的好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。
那么,什么是符合要求的好的聚类结果呢?即,簇内相似度高且簇间相似度低。
因此性能度量 也大致分为两类,一类是“外部指标”,即将聚类结果与某个“参考模型”进行比较;另一类是“内部指标”,即直接考察聚类结果而不利用任何参考模型。
- 外部指标
- JC系数
- FM系数(FMI)
- Rand系数(RI)
上述度量结果都在[0,1]区间,值越大越好
- 内部指标
- DB指数(DBI:值越小越好
- Dunn指数(DI):值越大越好
2.2 距离计算
- 闵科夫斯基距离
p=1时,即欧式距离
p=2时,即曼哈顿距离 <