葫芦书笔记----模型评估

1. 评估指标的局限性

准确率的局限性

速记:当不同类别的样本比例非常不均匀时,占比大的类别往往成为影响准确率的最主要因素。

详细:先给出准确率的计算公式:

Accuracy=\frac{n_{correct}}{n_{total}}

显然,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。为解决此问题,可以使用平均准确率(每个类别下准确率的算术平均)作为模型的评估指标。

 

精确率与召回率的权衡

精确率:指分类正确的正样本个数占分类器判定为正样本的样本个数比例。

召回率:指分类正确的正样本数占真正的正样本个数的比例。

速记:只用某个点对应的精确率和召回率不能全面地衡量模型的性能,只有通过P-R曲线的整体表现,才能够对模型进行更为全面的评估。

详细:精确率和召回率是既矛盾又统一的两个指标,为了提高精确率,分类器需要在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,

P-R曲线的画法:横轴是召回率,纵轴是精确率。对于一个排序模型来说,其P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,否则为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。

除P-R曲线外,F1值和ROC曲线也能综合地反映一个排序模型的性能。

 

平方根误差的“意外”

平方根误差:洋名字叫RMSE,公式如下:

RMSE=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n}}

速记:如果存在个别偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。

详细:解决方案:1.如果离群点是噪点的话,在预处理是去掉。2.如果不是噪点,那就需要提升模型的预测能力。3.可以找一个更合适的指标来评估该模型。如平均绝对百分比误差,它定义为

MAPE=\sum_{i=1}^{n}|\frac{y_i-\hat{y}_i)}{y_i}|\times \frac{100}{n}

相比RMSE,MAPE相对于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。

 

ROC曲线

什么是ROC曲线?

速记:横坐标为假阳性率(FPR);纵坐标为真阳性率(TPR)。

详细:FPR = \frac{FP}{N}

TPR=\frac{TP}{P}

其中,P为真实正样本数量,N为真实负样本数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被预测为正样本的个数。

 

如何绘制ROC曲线?

速记:通过不断移动分类器的“截断点”来生成曲线上一组关键点。

详细:截断点概念与P-R曲线中的阈值相似,都是指分类器将样本判为正的阈值。

其实还有一种方法画ROC曲线,设正样本数量为 P,负样本数量为N。把横轴刻度间隔设定为1/N,纵轴设定为1/P;根据模型输出的预测概率对样本进行排序(从高到低);依次遍历样本,同时从零点开始绘制ROC曲线,每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线,没遇到一个负样本就沿横轴方向绘制一个刻度间隔的曲线,指导遍历完所有样本,曲线最终停在(1,1)上。

 

如何计算AUC?

速记:AUC指的是ROC曲线下的面积大小。计算AUC只需沿ROC横轴做积分即可。

详细:该值能够量化地反映基于ROC曲线衡量出的模型性能。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。

 

ROC曲线相比P-R曲线有什么特点?

速记:相比P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线能够基本保持不变,而P-R曲线的形状一般会有较剧烈的变化。

详细:这个特点让ROC曲线能够尽量降低不同测试集带来的干扰,更加客观低衡量模型本身的性能。在很多实际问题中,正负样本数量往往很不均衡。

 

余弦距离的应用

在分析两个特征向量之间的相似性时,常用余弦相似度来表示。余弦相似度的取值范围是【-1,1】,相同的两个向量之间的相似度为1。如果希望得到类似距离的表示,将1减去余弦相似度即为余弦距离。因此余弦距离的取值范围为【0,2】,相同的两个向量余弦距离为0.

余弦相似度:

cos(A,B)=\frac{A \cdot B}{||A||_2||B||_2}

为什么在一些场景中要使用余弦相似度而不欧氏距离?

速记:余弦相似度关心的是向量之间的角度关系,并不关心它们的绝对大小。欧氏距离的数值受维度影响,范围不固定。

详细:当一对文本相似度的长度差距很大、但内容相近时,如果使用词频或词向量作为特征,它们在特征空间中的欧氏距离通常很大;而如果使用余弦相似度的花,它们之间的夹角可能很小,因而相似度高。

余弦距离是否是一个严格定义的距离?

速记:不是,只满足正定性和对称性,不满足三角不等式。

详细:距离定义:在一个集合中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定性,对称性,三角不等式)成立,则该实数可称为这对元素之间的距离。

余弦距离满足正定性和对称性,但是不满足三角不等式,因此它不是严格定义的距离。具体来说,对于向量A,B,三条 距离公理的证明如下。

正定性:d(x,y)>=0,取等号当且仅当x=y
对称性:d(x,y)=d(y,x

正定性

根据余弦距离定义,有

dist(A,B)=1-cos\theta =\frac{||A||_2||B||_2-AB}{||A||_2||B||_2}

因为||A||_2||B||_2-AB\geqslant 0,因此有dist(A,B)>=0恒成立。特别地,有

dist(A,B)=0\Leftrightarrow ||A||_2||B||_2\Leftrightarrow A=B

因此余弦距离满足正定性

对称性

根据定义显然可得

三角不等式

该性质并不成立,下面给出一个反例。

给定A=(1,0),B=(1,1),C=(0,1),有

dist(A,B)=1-\frac{\sqrt{2}}{2}

dist(B,C)=1-\frac{\sqrt{2}}{2}

dist(A,C)=1

因此有

dist(A,B)+dist(B,C)=2-\sqrt{2}<1=dist(A,C)

 

A/B测试的陷阱

AB测试是为WebApp界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。

作用:比较应用的多个版本,以确定哪个版本更好。

对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?

速记:离线评估无法完全消除模型过拟合的影响;离线评估无法完全还原线上的工作环境;线上系统的某些商业指标在离线评估中无法计算。

如何进行线上A/B测试?

进行A/B测试的主要手段是进行用户分桶,即将用户分成实验组和对照组,对实验组的用户施以新模型,对对照组用户施以旧模型。

 

模型评估的方法

在模型评估过程中,有哪些主要的验证方法,它们的优缺点是什么?

holdout检验(划分训练集和验证集,优点简单直接,缺点:评估指标与原始分组有很大关系);交叉验证(划分成k个子集,当前子集为验证集其他为训练集,优点,消除分组随机性,缺点:时间开销大);自助法(进行n次有放回的随机抽样,得到大小为n的训练集,没有被抽出过的样本作验证集,优点:在样本少时可以维持训练集样本规模,缺点:自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差)。

在自助法的采样过程中,对n个样本进行n次自助抽样,当n趋于无穷大时,最终由多少数据从未被选过?

速记:36.8%

详细:一个样本在以此抽样过程中未被抽中的概率为(1-1/n),n次抽样均未抽中的概率为(1-\frac{1}{n})^n。当n趋于无穷大时,概率为\underset{n\rightarrow \infty }{lim}(1-\frac{1}{n})^n。根据重要极限,\underset{n\rightarrow \infty }{lim}(1+\frac{1}{n})^n=e,所以有

\underset{n\rightarrow \infty }{lim}(1-\frac{1}{n})^n=\underset{n\rightarrow \infty }{lim} \frac{1}{(1+\frac{1}{n-1})^n}=\frac{1}{\underset{n\rightarrow \infty}{lim}(1+\frac{1}{n-1})^{n-1}} \cdot \frac{1}{\underset{n\rightarrow \infty}{lim}(1+\frac{1}{n-1})}=\frac{1}{e}\approx 0.368

 

超参数调参

超参数有哪些调优方法?

速记:网格搜索,随机搜索,贝叶斯优化等算法。

详细:网格搜索:通过查找搜索范围内所有的点来确定最优值,有很大概率找到全局最优值,但十分消耗计算资源和时间。

随机搜索:思想和网格搜索类似,只是不再测试上届和下届之间所有值,而是在搜索范围中随机选取样本点。它的理论依据是,如果样本点集足够大,那么通过随机采样也能大概率地找到全局最优值或其近似值。比网格搜索要快一些,但是结果是没有保证的。

贝叶斯优化算法:网格搜索和随机搜索在测试一个新点时,会忽略前一个点的信息;而贝叶斯优化算法则充分利用了之前的信息。通过对目标函数形状进行学习,找到使目标函数向全局最优值提升的参数。具体来说,它学习目标函数形状的方法是,首先根据先验分布,假设一个搜集函数;;然后每一次采用新的采样点来测试目标函数时,利用这个信息来更新目标函数的先验分布;最后,算法测试由后验分布给出的全局最值最可能出现的位置的点。但容易陷入局部最优。

 

过拟合与欠拟合

在模型评估过程中,过拟合和欠拟合具体是指什么现象?

速记:过就是过了,欠就是不够。

详细:过拟合可能是模型把噪声数据的特征也学习到了模型中,或者过度拟合训练数据,导致泛化能力低。欠拟合则是根本没有捕捉到数据的特征,不能很好地拟合数据。

能够说出几种降低过拟合和欠拟合风险的方法?

速记:降低过拟合:更多训练数据;降低模型复杂度;正则化方法;集成学习方法。降低欠拟合:添加新特征;增加模型复杂度;减小正则化系数。

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值