8.1 概述
8.1.1 什么是聚类分析
聚类分析是根据在数据中发现的描述对象及其关系,将数据对象分组。
聚类分析目标是组内的对象互相之间是相似的,而不同组中的对象是不同的。
聚类与分类:聚类分析可以理解为非监督分类
8.1.2 不同的聚类类型
层次的与划分的:簇的集合是嵌套还是非嵌套
互斥的、重叠的与模糊的:模糊聚类中每一个对象相对于每个簇都有一个隶属权值
完全的与部分的:是否将每一个对象都必须归为某一簇
8.1.3 不同的簇类型
明显分离的
基于原型的:球形(k均值)
基于图的
基于密度:簇就是对象的稠密区,被低密度的区域环绕(凝聚的层次聚类,DBSCAN)
共同性质的
8.2 k均值
K均值用质心定义原型,质心是一组值的均值
K中心点使用中心点定义原型,中心点是一组点中最具代表性的点
8.2.1 基本K均值算法
1.指派点到最近的质心
邻近度来量化所考虑数据的最近概念
2.质心和目标函数
聚类目标通常用一个目标函数表示,该函数依赖于点之间,或点到簇的质心的邻近性
欧几里得空间中的数据:
误差平方和SS