人工智能与机器学习-模型评估与旋转
机器学习-名词解释
查准率
查准率定义
查准率(精度)是衡量某一检索系统的信号噪声比的一种指标,即指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。
查准率的计算公式
查准率的局限性
查准率的局限性主要表现在:如果检索结果是题录式而非全文式,由于题录的内容简单,用户很难判断检索到的信息是否与课题密切相关,必须找到该题录的全文,才能正确判断出该信息是否符合检索课题的需要;同时,查准率中所讲的相关信息也具有“假设”的局限性。实验证明,在查全率和查准率之间存在着相反的相互依赖关系:如果提高输出的查全率,就会降低其查准率;反之亦然。
查全率
查全率定义
查全率(Recall Ratio)是指从数据库内检出的相关的信息量与总量的比率。查全率绝对值很难计算,只能根据数据库内容、数量来估算。
查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比。
查全率的局限性
查全率的局限性主要表现在:它是检索出的相关信息量与存储在检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少一般是不确知的,只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假没”是指检索出的村{关信息对用户具有同等价值,但实际并非如此,对于用户来说,信息的相关程度在某种意义上比它的数量重要得多。
查全率的评估方法
查全率的评估至少包括:
①初步查全结束时。当初步查全工作结束时,必须对初步查全专利文献库的查全率进行评估,该查全率是表明能否结束查全工作的依据。若此时查全率不够理想(例如不足50%),则需要继续进行查全工作,反之若达到预期的查全率,则可结束查全工作。
②去噪过程结束时。去噪过程也被称为“查准”的过程,其是对查全数据库进行去除与分析主题无关的专利文献的过程,该过程中不可避免地误删有效文献,为了检验去噪过程中是否误删了过多的有效文献,在去噪工作结束时必须对去噪之后的专利文献集合进行查全率的评估。
F1-Score
F1-Score定义
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
1)数学定义
F1分数( F1 Score),又称平衡F分数(balanced F Score),它被定义为精确率和召回率的调和平均数。
更一般的,我们定义F1分数为
除了 分数之外, 分数和 分数在统计学中也得到大量的应用。其中, 分数中,召回率的权重高于精确率,而 分数中,精确率的权重高于召回率。
2)物理意义
人们通常使用准确率和召回率这两个指标,来评价二分类模型的分析效果。
但是当这两个指标发生冲突时,我们很难在模型之间进行比较。比如,我们有如下两个模型A、B,A模型的召回率高于B模型,但是B模型的准确率高于A模型,A和B这两个模型的综合性能,哪一个更优呢?
Fb分数
F1-Score的应用领域
F分数被广泛应用在信息检索领域,用来衡量检索分类和文档分类的性能。早期人们只关注 F1分数,但是随着谷歌、百度等大型搜索引擎的兴起,召回率和准确率对性能影响的权重开始变得不同,人们开始更关注其中的一种,所以 Fb分数得到越来越广泛的应用。
F分数也被广泛应用在自然语言处理领域,比如命名实体识别、分词等,用来衡量算法或系统的性能。
G分数
G分数是另一种统一精准率和召回率的系统性能评估标准。
F分数是准确率和召回率的调和平均数,G分数被定义为准确率和召回率的几何平均数。
ROC
曲线的坐标分别为真正例率(TPR)和假正例率(FPR),定义如下:
真正例的个数是实际值为正例被预测成为正例的值得个数,TPR是预测结果中真正例占实际值中正例的比例;
反正例的个数是实际值为反例被预测成为正例的值得个数,FPR是预测结果中反正例占实际值中的反例的比例;
很多学习器是为测试样本是产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值分为正类,否则为反类,因此分类过程可以看作选取一个截断点。(通常截取点为0.5,大于0.5为正例,小于0.5为负例)
选择不同的截断点对结果的影响很大,截断点的取值区间是【0,1】,如果截断点靠近1,则被判断为正例的数量会变少;如果截断点靠近0,则被判断为正例的数量会变多。x轴的取值范围为【0,1】,x点代表FPR的概率;y轴的取值范围为【0,1】,y点代表TPR的概率
不同任务中,可以选择不同截断点,若更注重”查准率”,应选择排序中靠前位置进行截断,反之若注重”查全率”,则选择靠后位置截断。因此排序本身质量的好坏,可以直接导致学习器不同泛化性能好坏,ROC曲线则是从这个角度出发来研究学习器的工具。
混淆矩阵
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。
手写体Mnist数据集中10个字符 (0-9)的分类识别
Mnist
它是一组由美国高中生和人口调查局员工手写的70000个数字的图片。每张图像都用其代表的数字标记。这个数据集被广为使用,因此也被称作是机器学习领域的“Hello World”:但凡有人想到了一个新的分类算法,都会想看看在MNIST上的执行结果。因此只要是学习机器学习的人,早晚都要面对MNIST。
# 使用sklearn的函数来获取MNIST数据集
from sklearn.datasets import fetch_openml
import numpy as np
import os
# to make this notebook's output stable across runs
np.random.seed(42)
# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)
# 为了显示中文
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
# 耗时巨大
def sort_by_target(mnist):
reorder_train=np.array(sorted([(target,i) for i, target in enumerate(mnist.target[:60000])]))