第8讲人工智能中的机器学习模型评估

内容
• 1 距离度量分析                                                                给聚类用
• 2 相似度度量分析
• 3 机器学习评估模型及指标
• 4 混淆矩阵和正确率                                                        给分类用
• 5 查准率和召回率
CS225度量

距离和相似度 

主要用作聚类
• 在数据分析和数据挖掘过程中,经常需要知道个体间差异的大小,进而评价个体的相似性和类别
– 最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法, 如K均值(K-Means)。
• 为了方便下面的解释和举例,先设定要比较X个体和Y个体间的差异
– 它们都包含了N个维的特征,即
– X=(x1, x2, x3, … xn)
– Y=(y1, y2, y3, … yn)
• 下面来看看可用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。

1、距离度量分析
• 距离度量(Distance)用于衡量个体, 在空间上存在的距离,距离越远说明个体间的差异越大。
• 距离度量和计算方法包括
– 欧几里得距离(Euclidean Distance)
– 明可夫斯基距离(Minkowski Distance)
– 曼哈顿距离(Manhattan Distance)
– 切比雪夫距离(Chebyshev Distance)
– 马哈拉诺比斯距离(Mahalanobis Distance)
– ……
欧几里得距离
(Euclidean Distance)
• 欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。公式如下:


• 因为计算是基于各维度特征的绝对数值, 所以需要保证各维度指标, 在相同的刻度级别
– 比如对身高(cm)和体重(kg)两个单位不同的指标, 使用欧式距离, 可能使结果失效。
明可夫斯基距离
(Minkowski Distance)
明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下:
• •
这里的p值是一个变量,当p=2时,就变成欧氏距离

曼哈顿距离
(Manhattan Distance)
• 曼哈顿距离来源于纽约城市区块距离,是将多个维度上的距离,进行求和后的结果,
• 即当上面的明氏距离中p=1时,得到的距离度
量公式如下:

切比雪夫距离
(Chebyshev Distance)
• 切比雪夫距离起源于国际象棋中国王的走法,
– 国际象棋国王,每次只能往周围的8格中走一步
– 如果要从棋盘中A格(x1, y1)走到B格(x2, y2),最少需要走几步?
• 切比雪夫距离扩展到多维空间, 其实就是当p趋向于无穷大时的明氏距离:

– 前面的曼哈顿距离、欧氏距离和切比雪夫距离,都是明可夫斯基距离,在特殊条件下的应用。

具体用哪一个要看项目情况

2、 相似度度量
• 相似度度量(Similarity), 即计算个体间的相似程度,与距离度量相反,相似度度量的值越小
,说明个体间相似度越小,差异越大。

• 相似度度量方法包括:
– 向量空间余弦相似度(Cosine Similarity)
– 皮尔森相关系数(Pearson CorrelationCoefficient)
– Jaccard相似系数(Jaccard Coefficient)

向量空间余弦相似度
(Cosine Similarity)
• 余弦相似度用向量空间中,两个向量夹角的余弦值,作为衡量两个个体间差异
的大小。
• 相比距离度量,余弦相似度更加注重,两个向量在方向上的差异,而非距离或
长度上。
• 公式如下:


皮尔森相关系数
(Pearson Correlation Coefficient)
• 即相关分析中的相关系数r,分别对X和Y基于自身总体标准化后,计算空间向量的余弦
夹角。                                       由协方差而来
• 公式如下:

Jaccard相似系数
(Jaccard Coefficient)
• Jaccard系数主要用于计算符号度量,或布尔值度量的个体间的相似度
– 因为个体的特征属性都是由符号度量,或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果
– Jaccard系数只关心个体间,共同具有的特征是否一致这个问题。
• 如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下:

欧氏距离与余弦相似度比较
• 欧氏距离是最常见的距离度量,
• 余弦相似度是最常见的相似度度量
– 很多的距离度量和相似度度量, 都是基于这两者的变形和衍生
• 三维坐标系下, 欧氏距离和余弦相似度的区别很明显

3. 数据挖掘中的模型评估
• 传统的数据挖掘的过程,就是通过利用已知的样本数据,发现和创建模型的过程
• 模型的好坏、准确与否,与样本数据的正确与否,关系密切
• 数据挖掘领域,目前有一整套评估和分析模型
• 大数据挖掘中,直接利用海量的生产数据进行建模和分析,模型评估更加重要
• 下面将对这些方法进行介绍
15
4. 模型评估中的方法和指标
• 主要的模型评估方法和指标包括:
–1) 混淆矩阵
–2) 灵敏度与特异性
–3) 查准率和召回率
–4) ROC和AUC
1) 混淆矩阵
• 混淆矩阵(confusion matrix)是一张二维表, 按预测值是否匹配数据的真实值, 对预测值进行分类
– 该表的第一个维度表示所有可能的预测类别,第二个维度表示真实的类别。
– 下图展示了二值分类模型的混淆矩阵。对于三值分类模型,将是类似3× 3的混淆矩阵。

• 当预测值和真实值相同时,就是一个正确的分类。
– 正确的预测位于混淆矩阵的对角线上(标记为O)。
– 矩阵非对角线上的元素(标记为X)表示预测值与真实值不相同的情况,它们是错
误的预测。
• 对分类模型的性能度量, 基于表的对角线和非对角线上预测值的个数
 

度量
• 最常见的模型性能度量方式, 主要考虑模型在所有的分类中, 识别出某个分类
的能力。
– 感兴趣的类别称为阳性(Positive),
– 其他所有类别称为阴性(Negative)。
• 阳性类别的预测值和阴性类别的预测值之间的关系可用一个2× 2的混淆矩阵来
描述

表格矩阵
• 可根据预测值是否落入下述4类中的某一个来创建这个表格矩阵:
– 真阳性True Positive (TP):正确的分类为感兴趣的类别。
– 真阴性True Negative (TN):正确的分类为不感兴趣的类别。
– 假阳性False Positive (FP):错误的分类为感兴趣的类别。
– 假阴性False Negative (FN):错误的分类为不感兴趣的类别
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值