优化目标
聚类分析仅根据在数据中发现的描述对象及其关系的信息。将数据对象分组,其目标是:
- 组内对象之间是相似的
- 不同组的对象是不同的
换句话说,也就是组内相似性越大越好,组间的差别越大越好。
聚类的种类
- 划分聚类(partitional clustering):将数据对象集划分成不重叠的子集
层次聚类(hierarchical clustering):嵌套的集簇,组合成一棵树
互斥的(exclusive):每个对象都指派到单个簇
- 重叠的(overlapping):聚类用来反映一个对象同时属于多个组的事实
模糊聚类(fuzzy clustering):每个对象以一个权值的形式属于多个簇
完全聚类(complete clustering):将每个对象指派到一个簇
- 部分聚类(partial clustering):数据集中某些对象可能不属于明确定义的组
簇的类型
- 明显分离的:不同组中任意两点之间的距离都大于组内任意两点间的距离
- 基于原型的:每点到簇中心的距离比任何其他簇中心的距离近
- 基于邻近的:每个点到该簇中至少一个点的距离比不到簇中任意点距离更近
- 基于密度的:簇是被低密度区域分开的高密度区域
- 基于概念的:簇中的点具有由整个点集导出来的某一种一般共同性质