聚类(Clustering)
无监督学习的代表
聚类在“无监督学习”任务中研究最多、应用最广
目标:将数据样本划分为若干个通常不相交的“簇”(cluster)
既可以作为一个单独过程(用于找寻数据内在的分布结构),也可作为分类等其他学习任务的
先驱过程(预处理)。
距离计算
距离度量(distance metric)需满足的基本性质:
· 非负性:
· 同一性:当且仅当
· 对称性:
` 直递性:
** 非度量距离(Non-Metric distance):
违背距离度量基本准则中的某一项(通常违背最多的是直递性)
** 相似度:距离越远相似度越小,相似度不一定要满足上面的阿四个基本准则
常用距离形式:
闵可夫斯基距离(Minkowski distance) —— 对于实值属性
p = 2:欧氏距离(Euclidean distance)
p = 1:曼哈顿距离(Manhattan distance)
** 对于离散属性:区分有序和无序
有序属性:按照顺序赋值,然后依据上式计算
VDM(Value Different Metric) —— 对于无序(non-ordinal)属性
# VDM用两个无序属性出现的机会来评估两者是否相似
MinkovDM —— 对于混合属性
#上式满足距离度量的四个条件,也是一个距离
# 混合属性:有连续也有离散,离散里面有有序的又有无序的
## 聚类的“好坏”不存在绝对标准
The goodness of clustering depends on the opinion of the user.
## 聚类也许是机器学习中“新算法”出现最多、最快的领域,总能找到一个新的“标准”,使以往算法对它无能为力 —— 聚类算法是无穷无尽的,是学不完的
=> 要先明确标准,再按照标准去改算法,重要是掌握聚类算法的思路
常见聚类方法
原型聚类
亦称“基于原型的聚类”(prototype-based clustering)
假设:
聚类结构能通过一组原型刻画
过程:
先对原型初始化,然后对原型进行迭代更新求解代表:k均值聚类,学习向量量化(LVQ),高斯混合聚类
代表:
k均值聚类,学习向量量化(LVQ),高斯混合聚类
# 原型聚类研究最多,背后有非常好的概率意义上的解释
## 原型聚类算法(如:k均值聚类)都可以看作高斯混合聚类的特例
** 高斯混合概率
优点:可以用概率,既可以从贝叶斯学习的角度去诠释,也可以从统计学习的角度去诠释,比较好解释
缺点:通常只能找出椭球形的聚类结构
eg.出现半包围式("香肠形")样本模型时,k均值算法(原型聚类)会出现异类间距离小于同类间距离,从而错误划分。这种情况(香肠形)密度聚类(特别是DBSCAN)能有效处理。
密度聚类
亦称“基于密度的聚类”(density-based clustering)
假设:
聚类结构能通过样本分布的紧密程度确定
过程:
从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇
代表:
DBSCAN,OPTICS, DENCLUE
层次聚类(hierarchical clustering)
假设:
能够产生不同粒度的聚类结果
过程:
在不同层次对数据集进行划分,从而形成树形的聚类结构.代表:AGNES(自底向上),DIANA(自顶向下)
代表:
AGNES(自底向上),DIANA(自顶向下)