聚类与距离学习笔记

距离

距离度量的基本性质

非负性:d(x1,x2)>0
同一性:d(x1,x2)=0 当且仅当 x1=x2
对称性:d(x1,x2)=d(x2,x1)
直递性:d(x1,x3)<=d(x1,x2)+d(x2,x3)

闵可夫斯基距离

适用于有序属性 (eg:1,2),与数据的分布无关,具有一定的局限性,x过大y过小会放大x影响,需要做标准化,适用于假设数据各个维度互不相关。
闵氏距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。
公式
这里写图片描述
p=2 为 欧式距离(Euclidean distance)
p=1 为 曼哈顿距离(Manhattan distance)

假设在曼哈顿街区乘坐出租车从 P 点到 Q 点,白色表示高楼大厦,灰色表示街道:

这里写图片描述

绿色的斜线表示欧几里得距离,在现实中是不可能的。其他三条折线表示了曼哈顿距离,这三条折线的长度是相等的。

VDM距离(Value Different Metric)

适用于无序属性(eg:飞机、火车、轮船) p200
各个簇(样本簇a个数/总体a个数-样本簇b个数/总体b个数)^P之和
VDM+闵可夫斯基距离 表示无序和有序属性的混合属性距离

加权距离与标准化欧氏距离 (Standardized Euclidean Distance)

加权距离适用于样本权重不同。
标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。
这里写图片描述
如果将方差的倒数看成一个权重,也可称之为加权欧氏距离(Weighted Euclidean distance)。

相似度度量未必满足距离度量的基本性质

切比雪夫距离 (Chebyshev Distance)

国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。
这里写图片描述

马氏距离

马氏距离的优缺点:
1. 量纲无关,排除变量之间的相关性的干扰。
2. 马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;
3. 计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。
定义:
有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:
这里写图片描述
物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

余弦距离(Cosine Distance)

几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。
这里写图片描述
夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1。

汉明距离(Hamming Distance)

定义:两个等长字符串s1与s2的汉明距离为:将其中一个变为另外一个所需要作的最小字符替换次数

杰卡德距离(Jaccard Distance)

杰卡德相似系数
两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
杰卡德距离
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示:1-J(A,B)

相关系数 ( Correlation coefficient )与相关距离(Correlation distance)

相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。
这里写图片描述

信息熵(Information Entropy)

以上的距离度量方法度量的皆为两个样本(向量)之间的距离,而信息熵描述的是整个系统内部样本之间的一个距离,或者称之为系统内样本分布的集中程度(一致程度)、分散程度、混乱程度(不一致程度)。系统内样本分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。

参考引用

几种距离度量方法比较
机器学习中的相似性度量 (多种几何距离定义)
机器学习中的各种相似性、距离度量
漫谈机器学习中的距离和相似性度量方法

聚类性能度量

簇内相似度高,簇间相似度低。

外部指标

聚类结果与某个参考模型进行比较
a 聚类结果与模型结果一致的样本
b 在聚类中为同一簇,但在模型簇中不为同一簇的样本
c 在聚类簇中不为同一簇,但在模型簇中为同一簇的样本
d 都不为同一簇的样本
Jaccard系数
JC=a/(a+b+c)
FM指数FMI 公式略见周志华机器学习p198
Rand指数 RI
度量均在0-1之间,值越大越好。

内部指标

直接考察聚类结果不利用任何参考模型
DB指数DBI 越小越好(评价原理 簇内距离小 簇间距离大)
Dunn指数 DI 越大越好

原型聚类

原型聚类亦称“基于原型的聚类”,常用的原型聚类算法如下
1) K均值聚类
随机选择k个样本当中心点,计算其他样本距离中心点的距离,离哪个近就属于哪一簇,计算新的中心点,迭代。
2)学习向量量化 LVQ
假设样本有类别标记,利用监督信息辅助聚类。
目标:学习一组原型向量,每个向量代表一个簇
初始一组原型向量
计算样本到原型向量的距离,找见最近的比较是否标记一致
依据原型向量更新公式更新原型向量
迭代
输出:一组原型向量
3)高斯混合聚类
Gaussian Mixture Model (GMM)给出这些数据点被分配到每个 簇的概率,又称作 soft assignment
假设数据服从高斯混合分布,即数据可以看作是从数个高斯分布中生成出来的
每个 GMM 由 K 个 Gaussian 分布组成,每个 Gaussian 称为一个“Component”,这些 Component 线性加成在一起就组成了 GMM 的概率密度函数
1. 估计数据由每个 Component 生成的概率,对于每个数据 x_i 来说,它由第 k 个 Component 生成的概率
2. 估计每个 Component 的参数,使用后验概率最大,求出最大似然所对应的参数值
参考

密度聚类

基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。
DBSCAN:密度可达关系导出的最大的密度相连样本集合。
DBSCAN算法中将数据点分为以下三类:
核心点:在半径Eps内含有超过MinPts数目的点
边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
噪音点:既不是核心点也不是边界点的点
密度可达:对于对象链,是从关于Eps和MinPts直接密度可达的,则对象是从对象关于Eps和MinPts密度可达的。
1. 找出各个样本的领域并确定核心对象集合
2. 从核心对象集合中随机抽取一个作为种子,找出它的所有密度可达的样本,构成第一个簇
3. 去除选择过的的核心对象继续生产新的簇
参考

层次聚类

层次聚类也叫连通聚类方法,有两个基本方法:自顶而下和自底而上。自顶而下将所有样本看做是同一簇,然后进行分裂。自底而上将初所有样本看做不同的簇,然后进行凝聚。这种聚类的中心思想是:离观测点较近的点相比离观测点较远的点更可能是一类。
AGNES自低向上,初始每个样本一个簇,每一次找最近的两个簇合并,直到达到预设。
参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值