数据挖掘中的度量方法

最新推荐文章于 2024-07-23 01:00:00 发布

Senit_Co

最新推荐文章于 2024-07-23 01:00:00 发布

阅读量2k

点赞数

分类专栏： machine-learning 文章标签：数据挖掘机器学习度量方法

本文链接：https://blog.csdn.net/Zachary_Co/article/details/78698832

版权

machine-learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

原文站点：https://senitco.github.io/2017/05/24/measurement-method/

在数据挖掘中，无论是对数据进行分类、聚类还是异常检测、关联性分析，都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法，常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。

欧式距离

$n$ 维空间中两个样本点 $x$ 和 $y$ 之间的欧几里得距离定义如下：

d (x, y) = Σ n k = 1 (x k - y k) 2 - - - - - - - - - - - - \sqrt

$d(x,y)=\sqrt{\Sigma_{k=1}^n (x_k-y_k)^2}$
标准化欧式距离公式如下：

d (x, y) = Σ n k = 1 (x k - y k s k) 2 - - - - - - - - - - - - \sqrt

$d(x,y)=\sqrt{\Sigma_{k=1}^n (\dfrac{x_k-y_k}{s_k})^2}$
式中，

sk $s_k$ 为数据每一维的方差，标准化欧式距离考虑了数据各维分量的量纲和分布不一样，相当于对每维数据做了标准化处理。欧式距离适用于度量数据属性无关、值域或分布相同的数据对象。

曼哈顿距离

曼哈顿距离也称为街区距离，计算公式如下：

d (x, y) = Σ n k = 1 | x k - y k |

$d(x,y)=\Sigma_{k=1}^n \left|x_k-y_k\right|$

切比雪夫距离

d (x, y) = lim n \to \infty (Σ n k = 1 (| x k - y k |) r) 1 r = m a x k (| x k - y k |)

$d(x,y) = \lim_{n\rightarrow \infty} (\Sigma_{k=1}^n (\left|x_k-y_k\right|)^r)^\dfrac{1}{r} = max_k (\left|x_k-y_k\right|)$
上面两个公式是等价的。

闵可夫斯基距离

d (x, y) = (Σ n k = 1 (| x k - y k |) r) 1 r

$d(x,y)=(\Sigma_{k=1}^n (\left|x_k-y_k\right|)^r)^\dfrac{1}{r}$
式中，r是一个可变参数，根据参数r取值的不同，闵可夫斯基距离可以表示一类距离
r = 1时，为曼哈顿距离
r = 2时，为欧式距离
r →∞时，为切比雪夫距离
闵可夫斯基距离包括欧式距离、曼哈顿距离、切比雪夫距离都假设数据各维属性的量纲和分布（期望、方差）相同，因此适用于度量独立同分布的数据对象。

汉明距离

两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数，也就是将一个字符串变换为另一个字符串所需要替换的最小字符个数，例如

H a m m i n g D i s t a n c e (1001001, 0101101) = 3

$Hamming Distance(1001001, 0101101) = 3$
汉明距离常用于信息编码中。

余弦距离

余弦相似度公式定义如下：

c o s (x, y) = x y | x | | y | = Σ n k = 1 x k y k Σ n k = 1 x 2 k - - - - - - \sqrt Σ n k = 1 y 2 k - - - - - - \sqrt

$cos⁡(x,y)=\dfrac{xy}{\left|x\right|\left|y\right|} = \dfrac{\Sigma_{k=1}^n x_k y_k}{\sqrt{\Sigma_{k=1}^n x_k^2} \sqrt{\Sigma_{k=1}^n y_k^2}}$
余弦相似度实际上是向量

x $x$ 和

y $y$ 夹角的余弦度量，可用来衡量两个向量方向的差异。如果余弦相似度为

1 $1$ ，则

x $x$ 和

y $y$ 之间夹角为

0° $0°$ ，两向量除模外可认为是相同的；如果预先相似度为

0 $0$ ，则

x $x$ 和

y $y$ 之间夹角为

90° $90°$ ，则认为两向量完全不同。在计算余弦距离时，将向量均规范化成具有长度

1 $1$ ，因此不用考虑两个数据对象的量值。
余弦相似度常用来度量文本之间的相似性。文档可以用向量表示，向量的每个属性代表一个特定的词或术语在文档中出现的频率，尽管文档具有大量的属性，但每个文档向量都是稀疏的，具有相对较少的非零属性值。

马氏距离

马氏距离的计算公式如下：

m a h a l a n o b i s (x, y) = (x - y) Σ - 1 (x - y) T

$mahalanobis(x,y)=(x-y)\Sigma^{-1}(x-y)^T$
式中，

Σ−1 $\Sigma^{-1}$ 是数据协方差矩阵的逆。
前面的距离度量方法大都假设样本独立同分布、数据属性之间不相关。马氏距离考虑了数据属性之间的相关性，排除了属性间相关性的干扰，而且与量纲无关。若协方差矩阵是对角阵，则马氏距离变成了标准欧式距离；若协方差矩阵是单位矩阵，各个样本向量之间独立同分布，则变成欧式距离。