数据挖掘中常用的相似性度量方法

本文介绍了数据挖掘中常用的相似性度量方法,包括曼哈顿距离、欧氏距离、闵可夫斯基距离、切比雪夫距离、海明距离、Jaccard系数、Pearson相关系数、余弦相似度、马氏距离、KL散度、PMI和NGD。这些方法广泛应用于数据分析、机器学习等领域,用于衡量数据向量或分布之间的相似度。
摘要由CSDN通过智能技术生成

本文将介绍数据分析、数据挖掘、机器学习等领域中常用的相似性度量(Similarity Measurement)方法。

(1) Manhattan Distance(曼哈顿距离)

我们知道曼哈顿街区有一个个方块构成,从一个十字路口(0,0)到另一个十字路口(3,3)的最短路程,不是两点的连线距离,而是两条垂直线的距离和,也就是“曼哈顿距离”。假设有两个 N N N维的向量 x , y x,y x,y x x x y y y可以分别表示为 x = ( x 1 , x 2 , ⋯   , x N ) x=(x_1,x_2,\cdots,x_N) x=(x1,x2,,xN) y = ( y 1 , y 2 , ⋯   , y N ) y=(y_1,y_2,\cdots,y_N) y=(y1,y2,,yN),那么 x x x y y y的曼哈顿距离可以用 L 1 L_1 L1范式表示,即
d ( x , y ) = ∑ i = 1 N ∣ x i − y i ∣ d(x,y)=\sum_{i=1}^{N}|x_i-y_i| d(x,y)=i=1Nxiyi

(2) Euclidean Distance(欧氏距离)

假设有两个 N N N维的向量 x , y x,y x,y x x x y y y可以分别表示为 x = ( x 1 , x 2 , ⋯   , x N ) x=(x_1,x_2,\cdots,x_N) x=(x1,x2,,xN) y = ( y 1 , y 2 , ⋯   , y N ) y=(y_1,y_2,\cdots,y_N) y=(y1,y2,,yN),那么 x x x y y y的欧式距离可以用 L 2 L_2 L2范式表示,即
d ( x , y ) = ∑ i = 1 N ( x i − y i ) 2 d(x,y)=\sqrt{\sum_{i=1}^{N}(x_i-y_i)^2} d(x,y)=i=1N(xiyi)2

(3) Minkowsk Distance(闵可夫斯基距离)

假设有两个 N N N维的向量 x , y x,y x,y x x x y y y可以分别表示为 x = ( x 1 , x 2 , ⋯   , x N ) x=(x_1,x_2,\cdots,x_N) x=(x1,x2,,xN) y = ( y 1 , y 2 , ⋯   , y N ) y=(y_1,y_2,\cdots,y_N) y=(y1,y2,,yN),那么 x x x y y y的闵可夫斯基距离可以用 L p L_p Lp范式表示,即
d ( x , y ) = ∑ i = 1 N ( x i − y i ) p p d(x,y)=\sqrt[^p]{\sum_{i=1}^{N}(x_i-y_i)^p} d(x,y)=pi=1N(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值