经典机器学习系列(七)【聚类分析前序--相似性度量】

  相似性度量是机器学习中一个非常基础的概念:是评定两个事物之间相似程度的一种度量,尤其是在聚类、推荐算法中尤为重要。其本质就是一种量化标准。在机器学习中主要是用于衡量样本之间的相似程度。

  为什么要有一个衡量标准?这世间万物都是公说公有理,婆说婆有理,而这衡量标准一旦定下来,大家都得在这里面玩。这人世间的法律制度,大大小小的条文规矩都是衡量标准。

  那有些同学可能就会说了,我也想制定标准,可以是可以,但是得大家听你的吖,就像制定下面这些距离标准的人哪个不是赫赫有名。现在也有一些论文和机构在制定标准,背后都是学术界的泰斗人物。如果你不够强大到改变规则,就好好研究规则,在里面玩,如果你能改变规则,那就好好研究规则,在改规则里面玩,不知道要香到哪里去了,emmmm。

  回归正题,我们有些场合需要依据样本的自相似性来对样本进行分类,而哪些样本之间很像,哪些样本之间不像,需要一个度量标准,相似性度量的方法有很多,主要包括以下几种:

欧式距离

  欧式距离(Euclidean Distance)也称欧几里得距离或欧几里得度量,是一种最常用的一种度量方法,主要描述为以下数学形式:两个 n n n维向量 α ( x 11 , x 12 , ⋯   , x 1 n ) \alpha (x_{11}, x_{12}, \cdots ,x_{1n}) α(x11,x12,,x1n) β ( x 21 , x 22 , ⋯ x 2 n ) \beta(x_{21}, x_{22}, \cdots x_{2n}) β(x21,x22,x2n)之间的欧式距离(euclidean distance)为其对应分量的平方和再开根号:

d 12 = ∑ k = 1 n ( x 1 k − x 2 k ) 2 d_{12} = \sqrt{\sum_{k=1}^{n}(x_{1k}-x_{2k})^{2}} d12=k=1n(x1kx2k)2

  其实说白了就是欧几里得空间中两点的“普通”直线距离。

Euclidean Distance

  欧式距离是一种二范数形式,具有在特征空间中转化可旋转的不变性,一般趋向于构建球形聚类簇。然而线性变换会使其相关性产生形变。

标准化欧式距离

  根据数据各维分量的不同,将各个分量部分都“标准化”到均值、方差相等。这样做的目的是使每一个属性对距离的贡献率相同,消除特征之间量纲差异

  两个 n n n维向量 α ( x 11 , x 12 , ⋯   , x 1 n ) \alpha (x_{11}, x_{12}, \cdots ,x_{1n}) α(x11,x12,,x1n) β ( x 21 , x 22 , ⋯ x 2 n ) \beta(x_{21}, x_{22}, \cdots x_{2n}) β(x21,x22,x2n)之间的标准化欧式距离为:

d 12 = ∑ k = 1 n ( x 1 k − x 2 k s k ) 2 d_{12} = \sqrt{\sum_{k=1}^{n}( \frac{x_{1k}-x_{2k}}{s_{k}}})^{2} d12=k=1n(skx1kx2k )2

  其实 s k s_{k} sk表示方差,方差的倒数可以看作是一种权重,标准化欧式距离本质上是一种加权欧式距离

曼哈顿距离

  曼哈顿距离(Manhattan Distance)也称为L1距离、城市区块距离(City Block Distance) 。基于曼哈顿纽约市区的网格状街道地理所得出来的一种距离。

红色,蓝色,黄色:相当于曼哈顿的距离

  用数学表示为:两个 n n n维向量 α ( x 11 , x 12 , ⋯   , x 1 n ) \alpha (x_{11}, x_{12}, \cdots ,x_{1n}) α(x11,x12,,x1n) β ( x 21 , x 22 , ⋯ x 2 n ) \beta(x_{21}, x_{22}, \cdots x_{2n}) β(x21,x22,x2n)之间的标曼哈顿距离为:

d 12 = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d_{12}=\sum_{k=1}^{n} |x_{1k}-x_{2k}| d12=k=1nx1kx2k

  在欧式空间的直角坐标系上,两点所形成的线段对轴产生的投影的距离总和。这种距离不符合在特征空间中转化和旋转的不变性

切比雪夫距离

  切比雪夫距离(Chebyshev Distance)也称为棋盘距离,是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量,也是超凸度量(injective metric space)的一种方法。它的典型应用是解决国际象棋中的国王从一个格子走到另一个格子最少需要几步的问题。

Chebyshev Distance 示意图

  两个 n n n维向量 α ( x 11 , x 12 , ⋯   , x 1 n ) \alpha (x_{11}, x_{12}, \cdots ,x_{1n}) α(x11,x12,,x1n) β ( x 21 , x 22 , ⋯ x 2 n ) \beta(x_{21}, x_{22}, \cdots x_{2n}) β(x21,x22,x2n)之间的标切比雪夫距离为:

d 12 = m a x i ( ∣ x 1 i − x 2 i ∣ ) d_{12}=max_{i}(|x_{1i}-x_{2i}|) d12=maxi(x1ix2i)

  描述的是 α \alpha α β \beta β中对应分量差值中值最大的那一个。通过等价性可以由放缩法和夹逼定理(squeese theorem)证得其等价于:

d 12 = lim ⁡ k → ∞ ( ∑ i = 1 n ∣ x 1 i − x 2 i ∣ k ) 1 / k d_{12}=\lim _{k \rightarrow \infty}\left(\sum_{i=1}^{n}\left|x_{1 i}-x_{2 i}\right|^{k}\right)^{1 / k} d12=klim(i=1nx1ix2ik)1/k

闵可夫斯基距离

  闵可夫斯基距离(Minkowski Distance)也称为闵式距离,定义如下:

  两个 n n n维向量 α ( x 11 , x 12 , ⋯   , x 1 n ) \alpha (x_{11}, x_{12}, \cdots ,x_{1n}) α(x11,x12,,x1n) β ( x 21 , x 22 , ⋯ x 2 n ) \beta(x_{21}, x_{22}, \cdots x_{2n}) β(x21,x22,x2n)之间的标闵可夫斯基距离为:

d 12 = ∑ k = 1 n ( x 1 k − x 2 k ) p p d_{12}=\sqrt[p]{\sum_{k=1}^{n}\left(x_{1 k}-x_{2 k}\right)^{p}} d12=pk=1n(x1kx2k)p

  • p = 1 p=1 p=1时,它是曼哈顿距离
  • p = 2 p=2 p=2时,它是欧式距离
  • p = ∞ p=\infty p=时,它是切比雪夫距离

  所以闵式距离是上述三种距离的一般性表示。

  其图形表示如下:

直线到中心原点的距离

  闵氏距离将各个分量的量纲,也就是“单位”当作相同看待没有考虑各个量的分布(如期望、方差等)可能不同。

余弦距离

  向量的几何意义不只包含方向,余弦距离(cosine distance)是度量两个向量方向差异的一种方法。是方向性地判断,而不是大小的判断。两个方向相同的矢量的余弦相似度为1 ,两个相对于彼此成90°角的向量的相似度为0,而两个完全相反的向量的相似度为-1,而与幅度无关。

  数学表示:两个 n n n维向量 α ( x 11 , x 12 , ⋯   , x 1 n ) \alpha (x_{11}, x_{12}, \cdots ,x_{1n}) α(x11,x12,,x1n) β ( x 21 , x 22 , ⋯ x 2 n ) \beta(x_{21}, x_{22}, \cdots x_{2n}) β(x21,x22,x2n)之间的标夹角余弦度量为:

c o s ( θ ) = α ⋅ β ∣ α ∣ ∣ β ∣ cos(\theta)=\frac{\alpha \cdot \beta}{|\alpha||\beta|} cos(θ)=α∣∣βαβ

  即:

cos ⁡ ( θ ) = ∑ k = 1 n x 1 k x 2 k ∑ k = 1 n x 1 k 2 ∑ k = 1 n x 2 k 2 \cos (\theta)=\frac{\sum_{k=1}^{n} x_{1 k} x_{2 k}}{\sqrt{\sum_{k=1}^{n} x_{1 k}^{2}} \sqrt{\sum_{k=1}^{n} x_{2 k}^{2}}} cos(θ)=k=1nx1k2 k=1nx2k2 k=1nx1kx2k

马氏距离

  马氏距离(Mahalanobis distance)是一种基于样本分布的一种距离,它是规范化的主成分空间中的欧式距离。

  那什么是规范化的主成分空间呢?规范化的主成分空间就是利用主成分分析,对一些数据进行主成分分解,再对所有主成分分解轴做归一化,形成新的坐标轴,由这些坐标轴组成的空间就是规范化的主成分空间。

  设有 M M M个向量 X 1 X_{1} X1, X 2 X_{2} X2, ⋯ \cdots , X M X_{M} XM,协方差矩阵记为 S S S,均值记为向量 μ \mu μ。则样本向量 X X X μ \mu μ的马氏距离

D ( X ) = ( X − μ ) T S − 1 ( X − μ ) D(X)=\sqrt{(X-\mu)^{T}S^{-1}(X-\mu)} D(X)=(Xμ)TS1(Xμ)

  向量 X i X_{i} Xi X j X_{j} Xj之间的马氏距离

D ( X i , X j ) = ( X i − X j ) T S − 1 ( X i − X j ) D(X_{i},X_{j})=\sqrt{(X_{i}-X_{j})^{T}S^{-1}(X_{i}-X_{j})} D(Xi,Xj)=(XiXj)TS1(XiXj)

  若协方差矩阵是单位矩阵(各样本向量之间独立同分布), X i X_{i} Xi X j X_{j} Xj之间的马氏距离等于它们的欧式距离

D ( X i , X j ) = ( X i − X j ) T ( X i − X j ) D(X_{i},X_{j})=\sqrt{(X_{i}-X_{j})^{T}(X_{i}-X_{j})} D(Xi,Xj)=(XiXj)T(XiXj)

  如果协方差矩阵是对角矩阵的话,此时的马氏距离就变成了标准化欧式距离。

  马氏距离具有以下特点

  • 量纲无关,排除变量之间的相关性的干扰;
  • 马氏距离的计算是建立在总体样本的基础上;因为我们考虑了样本的均值,样本的协方差。
  • 计算马氏距离过程中,要求总体样本数大于样本的维数。

海明距离

  两个等长二进制串 S 1 S_{1} S1 S 2 S_{2} S2,将其中一个变换为另一个所需要的最小变换次数

  例如:字符串“1111”与“1001”之间的海明距离为2。

杰卡德距离

  在了解杰卡德距离之前我们需要了解一下杰卡德相似系数(Jaccard similarity coefficient):

  两个集合 A A A B B B的交集元素在 A A A B B B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号 J ( A , B ) J(A,B) J(A,B)表示:

J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B)=\frac{|A \cap B|}{|A \cup B|} J(A,B)=ABAB

  杰卡德距离描述的是与杰卡德相似系数相反的一个概念:用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

J δ ( A , B ) = 1 − J ( A , B ) = ∣ A ∪ B ∣ − ∣ A ∩ B ∣ ∣ A ∪ B ∣ J_{\delta}(A, B)=1-J(A, B)=\frac{|A \cup B|-|A \cap B|}{|A \cup B|} Jδ(A,B)=1J(A,B)=ABABAB

相关距离

  相关系数:衡量随机变量 X X X Y Y Y相关程度的一种方法,相关系数的取值范围是 [ − 1 , 1 ] [-1,1] [1,1]。如皮尔逊相关系数定义为:

ρ X Y = Cov ⁡ ( X , Y ) D ( X ) D ( Y ) = E ( ( E − E X ) ( Y − E Y ) ) D ( X ) D ( Y ) \rho_{XY}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}=\frac{E((E-E X)(Y-E Y))}{\sqrt{D(X)} \sqrt{D(Y)}} ρXY=D(X) D(Y) Cov(X,Y)=D(X) D(Y) E((EEX)(YEY))

  相关系数的绝对值越大,则表明 X X X Y Y Y相关度越高。当 X X X Y Y Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。

  有了相关系数之后我们定义相关距离(correlation distance):

D X Y = 1 − ρ X Y D_{XY}=1-\rho_{XY} DXY=1ρXY

信息熵

  上文讨论的都是度量两个样本(向量)之间的距离

  信息熵(information entropy)描述的是整个系统内部样本之间的一个距离,或者称之为系统内样本分布的集中程度(一致程度)、分散程度、混乱程度(不一致程度)。

  如果数据分布越分散,对应的信息熵就越大;反之,如果分布越有序,信息熵则越小。

  信息熵的公式可以表示为如下形式:

E n t r o p y ( X ) = ∑ i = 1 n − p i l o g 2 p i Entropy(X)=\sum_{i=1}^{n}-p_{i}log_{2}p_{i} Entropy(X)=i=1npilog2pi

  其中, n n n为样本 X X X的分类数; p i p_{i} pi X X X中第 i i i类元素出现的概率。

基于核函数的度量

  我们为什么要用到核函数?因为原始样本空间中的数据是线性不可分的,采用核函数映射到高维空间,在这个高维空间中使其线性可分。

  因此,对于原始样本空间当中,距离函数需满足:

  • d ( x , y ) > = 0 d(x,y)>=0 d(x,y)>=0,即距离要非负; d ( x , y ) = 0 d(x,y)=0 d(x,y)=0,即自身的距离为0。
  • 对称性,即 d ( x , y ) = d ( y , x ) d(x,y)=d(y,x) d(x,y)=d(y,x)

我的微信公众号名称:小小何先生
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值