常用距离/相似度度量

给定样本集合 X X X X = [ x i j ] m × n X = [x_{ij}]_{m\times n} X=[xij]m×n,由 n n n m m m 维特征组成的样本集合。其中 x i , x j ∈ X , x i = ( x i 1 , x i 2 , . . . , x i m ) , x j = ( x j 1 , x j 2 , . . . , x j m ) x_i, x_j \in {X}, x_i = (x_{i1}, x_{i2}, ..., x_{im}), x_j = (x_{j1}, x_{j2}, ..., x_{jm}) xi,xjX,xi=(xi1,xi2,...,xim),xj=(xj1,xj2,...,xjm)

1. 闵可夫斯基距离(Minkowski distance)

闵可夫斯基距离越大,表示两个样本/向量之间的相似度越低。
样本 x i x_i xi x j x_j xj 之间的闵可夫斯基距离为:
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ ) 1 p d_{ij} = (\sum_{k=1}^{m} |x_{ki} - x_{kj}|)^{\frac{1}{p}} dij=(k=1mxkixkj)p1
p = 1 p =1 p=1 时,即为曼哈顿距离(Manhattan distance):
d i j = ∑ k = 1 m ∣ x k i − x k j ∣ d_{ij} = \sum_{k=1}^m|x_{ki} - x_{kj}| dij=k=1mxkixkj
p = 2 p = 2 p=2时,即为欧式距离(Euclidean distance):
d i j = ∑ k = 1 m ∣ x k i − x k j ∣ 2 d_{ij} = \sqrt{\sum_{k=1}^m |x_{ki} - x_{kj}| ^ 2} dij=k=1mxkixkj2
p = ∞ p = \infty p= 时,即为切比雪夫距离(Chebyshev distance):
d i j = max ⁡ k ∣ x k i − x k j ∣ d_{ij} = \max_{k} |x_{ki} - x_{kj}| dij=kmaxxkixkj

2. 马哈拉诺比斯距离(Mahalanobis distance)

简称马氏距离,考虑各个特征之间的相关性。马氏距离越大,表示两个样本/向量之间的相似度越低。
记样本集合 X X X 的协方差矩阵为 S S S,则样本 x i x_i xi x j x_j xj 之间的马氏距离为:
d i j = ( x i − x j ) T S − 1 ( x i − x j ) d_{ij} = \sqrt{(x_i - x_j)^T S^{-1}(x_i - x_j)} dij=(xixj)TS1(xixj)
S S S 为单位矩阵时,即样本数据的各个特征之间相互独立,且各个特征的方差为1 时,马氏距离就是欧式距离,故马氏距离是欧式距离的一种推广。

3. 相关系数(Correlation coefficient)

相似度越接近 1,表示两个向量/样本之间的相似度越高;越接近 0,相似度越低。
样本 x i x_i xi x j x_j xj 之间的相关系数为:
r i j = ∑ k = 1 m ( x k i − x ˉ i ) ( x k j − x ˉ j ) ∑ k = 1 m ( x k i − x ˉ i ) 2 ∑ k = 1 m ( x k j − x ˉ j ) 2 r_{ij} = \frac{\sum_{k=1}^m (x_{ki} - \bar{x}_i) (x_{kj} - \bar{x}_j)} { \sqrt{\sum_{k=1}^m({x_{ki} - \bar{x}_i) ^2\sum_{k=1}^m (x_{kj} - \bar{x}_j)^2}}} rij=k=1m(xkixˉi)2k=1m(xkjxˉj)2 k=1m(xkixˉi)(xkjxˉj)
其中,
x ˉ i = 1 m ∑ k = 1 m x k i , x ˉ j = 1 m ∑ k = 1 m x k j \bar{x}_i = \frac{1}{m}\sum_{k=1}^mx_{ki}, \bar{x}_j = \frac{1}{m}\sum_{k=1}^mx_{kj} xˉi=m1k=1mxki,xˉj=m1k=1mxkj

4. 余弦相似度(Cosine distance)

余弦相似度越接近 1,表示两个向量/样本之间的相似度越高;越接近 0,相似度越低。
样本 x i x_i xi x j x_j xj 之间的余弦相似度为:
s i j = ∑ k = 1 m x k i x k j ∑ k = 1 x k i 2 ∑ k = 1 m x k j 2 s_ij = \frac{\sum_{k=1}^m x_{ki} x_{kj}} {\sqrt{\sum_{k=1} x_{ki}^2 \sum_{k=1}^mx _{kj}^2}} sij=k=1xki2k=1mxkj2 k=1mxkixkj

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值