聚类的基本知识

聚类的两个基本问题:

1.性能度量
2.距离计算

1.性能度量

聚类性能度量亦称“有效性指标”。
聚类性能度量大致有两类:一类称为“外部指标”,指将聚类结果与某个“参考模型”进行比较。
另一类称为“内部指标”,指直接考察聚类结果而部利用任何参考模型。

2.距离计算

在进行距离计算时,属性上是否定义了“序”关系是很重要的。
属性可以划分为有序属性和无序属性:
(1)有序属性:可以直接在属性值上计算距离,比如{1,2,3}这样的离散属性,“1”与“2”比较接近,与“3”比较远。
(2)无序属性:不可以直接在属性值上计算距离,比如{飞机,汽车,轮船}这样的离散属性。

阅读更多
文章标签: 机器学习
个人分类: 机器学习
上一篇HBase中Split的详细过程
下一篇二叉树的一些总结
想对作者说点什么? 我来说一句

经典数据挖掘电子书-part2

2012年03月27日 1.39MB 下载

没有更多推荐了,返回首页

关闭
关闭