目录
如何评估聚类算法
间接法:对使用聚类算法结果的下一应用的指标进行评估
直接法:外部指标(聚类结果和某个参考模型比较,将计算机结果与行业专家划分结果比较),内部指标(类内差异尽可能小,类间差异尽可能大 )
直接法需要计算类内样本点、类外样本点间的样本差异。
那么样本差异,要如何衡量呢?
样本差异,常借助’相似性‘指标衡量。
相似性计算——如何评估样本之间的差异
簇内样本差异小,簇外样本样本差异大。
使用样本点间的距离衡量样本差异。
在这里,有两种常用距离:
- 欧式距离:向量的模值
- 会受指标单位刻度影响,需要先对数据标准化处理eg:min-max [0,1],
- 欧氏距离越大,差异越大
- 余弦距离:向量的夹角——兴趣推荐
- 不受指标刻度的影响
- 值越大,差异越小