本文链接：https://blog.csdn.net/u012678323/article/details/118546466

内容
• 1 距离度量分析 给聚类用
• 2 相似度度量分析
• 3 机器学习评估模型及指标
• 4 混淆矩阵和正确率 给分类用
• 5 查准率和召回率
CS225度量

距离和相似度

主要用作聚类
• 在数据分析和数据挖掘过程中，经常需要知道个体间差异的大小，进而评价个体的相似性和类别
– 最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K均值(K-Means)。
• 为了方便下面的解释和举例，先设定要比较X个体和Y个体间的差异
– 它们都包含了N个维的特征，即
– X=(x1， x2， x3， … xn)
– Y=(y1， y2， y3， … yn)
• 下面来看看可用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。

1、距离度量分析
• 距离度量(Distance)用于衡量个体，在空间上存在的距离，距离越远说明个体间的差异越大。
• 距离度量和计算方法包括
– 欧几里得距离(Euclidean Distance)
– 明可夫斯基距离(Minkowski Distance)
– 曼哈顿距离(Manhattan Distance)
– 切比雪夫距离(Chebyshev Distance)
– 马哈拉诺比斯距离(Mahalanobis Distance)
– ……
欧几里得距离
(Euclidean Distance)
• 欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。公式如下：

• 因为计算是基于各维度特征的绝对数值，所以需要保证各维度指标，在相同的刻度级别
– 比如对身高(cm)和体重(kg)两个单位不同的指标，使用欧式距离，可能使结果失效。
明可夫斯基距离
(Minkowski Distance)
• 明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述。公式如下：
• •
这里的p值是一个变量，当p=2时，就变成欧氏距离

曼哈顿距离
(Manhattan Distance)
• 曼哈顿距离来源于纽约城市区块距离，是将多个维度上的距离，进行求和后的结果，
• 即当上面的明氏距离中p=1时，得到的距离度
量公式如下：
•
切比雪夫距离
(Chebyshev Distance)
• 切比雪夫距离起源于国际象棋中国王的走法，
– 国际象棋国王，每次只能往周围的8格中走一步
– 如果要从棋盘中A格(x1， y1)走到B格(x2， y2)，最少需要走几步？
• 切比雪夫距离扩展到多维空间，其实就是当p趋向于无穷大时的明氏距离：
•
– 前面的曼哈顿距离、欧氏距离和切比雪夫距离，都是明可夫斯基距离，在特殊条件下的应用。

具体用哪一个要看项目情况

2、相似度度量
• 相似度度量(Similarity)，即计算个体间的相似程度，与距离度量相反，相似度度量的值越小
，说明个体间相似度越小，差异越大。
• 相似度度量方法包括：
– 向量空间余弦相似度(Cosine Similarity)
– 皮尔森相关系数(Pearson CorrelationCoefficient)
– Jaccard相似系数(Jaccard Coefficient)

向量空间余弦相似度
(Cosine Similarity)
• 余弦相似度用向量空间中，两个向量夹角的余弦值，作为衡量两个个体间差异
的大小。
• 相比距离度量，余弦相似度更加注重，两个向量在方向上的差异，而非距离或
长度上。
• 公式如下：
•

皮尔森相关系数
(Pearson Correlation Coefficient)
• 即相关分析中的相关系数r，分别对X和Y基于自身总体标准化后，计算空间向量的余弦
夹角。 由协方差而来
• 公式如下：
•

Jaccard相似系数
(Jaccard Coefficient)
• Jaccard系数主要用于计算符号度量，或布尔值度量的个体间的相似度
– 因为个体的特征属性都是由符号度量，或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果
– Jaccard系数只关心个体间，共同具有的特征是否一致这个问题。
• 如果比较X与Y的Jaccard相似系数，只比较xn和yn中相同的个数，公式如下：

欧氏距离与余弦相似度比较
• 欧氏距离是最常见的距离度量，
• 余弦相似度是最常见的相似度度量
– 很多的距离度量和相似度度量，都是基于这两者的变形和衍生
• 三维坐标系下，欧氏距离和余弦相似度的区别很明显

3. 数据挖掘中的模型评估
• 传统的数据挖掘的过程，就是通过利用已知的样本数据，发现和创建模型的过程
• 模型的好坏、准确与否，与样本数据的正确与否，关系密切
• 数据挖掘领域，目前有一整套评估和分析模型
• 大数据挖掘中，直接利用海量的生产数据进行建模和分析，模型评估更加重要
• 下面将对这些方法进行介绍
15
4. 模型评估中的方法和指标
• 主要的模型评估方法和指标包括：
–1) 混淆矩阵
–2) 灵敏度与特异性
–3) 查准率和召回率
–4) ROC和AUC
1) 混淆矩阵
• 混淆矩阵(confusion matrix)是一张二维表，按预测值是否匹配数据的真实值，对预测值进行分类
– 该表的第一个维度表示所有可能的预测类别，第二个维度表示真实的类别。
– 下图展示了二值分类模型的混淆矩阵。对于三值分类模型，将是类似3× 3的混淆矩阵。

• 当预测值和真实值相同时，就是一个正确的分类。
– 正确的预测位于混淆矩阵的对角线上(标记为O)。
– 矩阵非对角线上的元素(标记为X)表示预测值与真实值不相同的情况，它们是错
误的预测。
• 对分类模型的性能度量，基于表的对角线和非对角线上预测值的个数

度量
• 最常见的模型性能度量方式，主要考虑模型在所有的分类中，识别出某个分类
的能力。
– 感兴趣的类别称为阳性(Positive)，
– 其他所有类别称为阴性(Negative)。
• 阳性类别的预测值和阴性类别的预测值之间的关系可用一个2× 2的混淆矩阵来
描述

表格矩阵
• 可根据预测值是否落入下述4类中的某一个来创建这个表格矩阵：
– 真阳性True Positive (TP)：正确的分类为感兴趣的类别。
– 真阴性True Negative (TN)：正确的分类为不感兴趣的类别。
– 假阳性False Positive (FP)：错误的分类为感兴趣的类别。
– 假阴性False Negative (FN)：错误的分类为不感兴趣的类别