葫芦书笔记----模型评估

最新推荐文章于 2024-10-02 16:36:44 发布

沃·夏澈德

最新推荐文章于 2024-10-02 16:36:44 发布

阅读量368

点赞数 1

分类专栏：葫芦书笔记文章标签：模型评估机器学习评估函数

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/108876827

版权

葫芦书笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1. 评估指标的局限性

准确率的局限性

速记：当不同类别的样本比例非常不均匀时，占比大的类别往往成为影响准确率的最主要因素。

详细：先给出准确率的计算公式：

$Accuracy=\frac{n_{correct}}{n_{total}}$

显然，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。为解决此问题，可以使用平均准确率（每个类别下准确率的算术平均）作为模型的评估指标。

精确率与召回率的权衡

精确率：指分类正确的正样本个数占分类器判定为正样本的样本个数比例。

召回率：指分类正确的正样本数占真正的正样本个数的比例。

速记：只用某个点对应的精确率和召回率不能全面地衡量模型的性能，只有通过P-R曲线的整体表现，才能够对模型进行更为全面的评估。

详细：精确率和召回率是既矛盾又统一的两个指标，为了提高精确率，分类器需要在“更有把握”时才把样本预测为正样本，但此时往往会因为过于保守而漏掉很多“没有把握”的正样本，

P-R曲线的画法：横轴是召回率，纵轴是精确率。对于一个排序模型来说，其P-R曲线上的一个点代表着，在某一阈值下，模型将大于该阈值的结果判定为正样本，否则为负样本，此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。

除P-R曲线外，F1值和ROC曲线也能综合地反映一个排序模型的性能。

平方根误差的“意外”

平方根误差：洋名字叫RMSE，公式如下：

$RMSE=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n}}$

速记：如果存在个别偏离程度非常大的离群点时，即使离群点数量非常少，也会让RMSE指标变得很差。

详细：解决方案：1.如果离群点是噪点的话，在预处理是去掉。2.如果不是噪点，那就需要提升模型的预测能力。3.可以找一个更合适的指标来评估该模型。如平均绝对百分比误差，它定义为

$MAPE=\sum_{i=1}^{n}|\frac{y_i-\hat{y}_i)}{y_i}|\times \frac{100}{n}$

相比RMSE，MAPE相对于把每个点的误差进行了归一化，降低了个别离群点带来的绝对误差的影响。

ROC曲线

什么是ROC曲线？

速记：横坐标为假阳性率（FPR）；纵坐标为真阳性率（TPR）。

详细： $FPR = \frac{FP}{N}$

$TPR=\frac{TP}{P}$

其中，P为真实正样本数量，N为真实负样本数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被预测为正样本的个数。

如何绘制ROC曲线？

速记：通过不断移动分类器的“截断点”来生成曲线上一组关键点。

详细：截断点概念与P-R曲线中的阈值相似，都是指分类器将样本判为正的阈值。

其实还有一种方法画ROC曲线，设正样本数量为 P，负样本数量为N。把横轴刻度间隔设定为1/N，纵轴设定为1/P；根据模型输出的预测概率对样本进行排序（从高到低）；依次遍历样本，同时从零点开始绘制ROC曲线，每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线，没遇到一个负样本就沿横轴方向绘制一个刻度间隔的曲线，指导遍历完所有样本，曲线最终停在（1，1）上。

如何计算AUC？

速记：AUC指的是ROC曲线下的面积大小。计算AUC只需沿ROC横轴做积分即可。

详细：该值能够量化地反映基于ROC曲线衡量出的模型性能。AUC越大，说明分类器越可能把真正的正样本排在前面，分类性能越好。

ROC曲线相比P-R曲线有什么特点？

速记：相比P-R曲线，ROC曲线有一个特点，当正负样本的分布发生变化时，ROC曲线能够基本保持不变，而P-R曲线的形状一般会有较剧烈的变化。

详细：这个特点让ROC曲线能够尽量降低不同测试集带来的干扰，更加客观低衡量模型本身的性能。在很多实际问题中，正负样本数量往往很不均衡。

余弦距离的应用

在分析两个特征向量之间的相似性时，常用余弦相似度来表示。余弦相似度的取值范围是【-1，1】，相同的两个向量之间的相似度为1。如果希望得到类似距离的表示，将1减去余弦相似度即为余弦距离。因此余弦距离的取值范围为【0，2】，相同的两个向量余弦距离为0.

余弦相似度：

$cos(A,B)=\frac{A \cdot B}{||A||_2||B||_2}$

为什么在一些场景中要使用余弦相似度而不欧氏距离？

速记：余弦相似度关心的是向量之间的角度关系，并不关心它们的绝对大小。欧氏距离的数值受维度影响，范围不固定。

详细：当一对文本相似度的长度差距很大、但内容相近时，如果使用词频或词向量作为特征，它们在特征空间中的欧氏距离通常很大；而如果使用余弦相似度的花，它们之间的夹角可能很小，因而相似度高。

余弦距离是否是一个严格定义的距离？

速记：不是，只满足正定性和对称性，不满足三角不等式。

详细：距离定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定性，对称性，三角不等式）成立，则该实数可称为这对元素之间的距离。

余弦距离满足正定性和对称性，但是不满足三角不等式，因此它不是严格定义的距离。具体来说，对于向量A，B，三条距离公理的证明如下。

正定性：d(x,y)>=0，取等号当且仅当x=y
对称性：d(x,y)=d(y,x

正定性

根据余弦距离定义，有

$dist(A,B)=1-cos\theta =\frac{||A||_2||B||_2-AB}{||A||_2||B||_2}$

因为 $||A||_2||B||_2-AB\geqslant 0$ ,因此有dist(A,B)>=0恒成立。特别地，有

$dist(A,B)=0\Leftrightarrow ||A||_2||B||_2\Leftrightarrow A=B$

因此余弦距离满足正定性

对称性

根据定义显然可得

三角不等式

该性质并不成立，下面给出一个反例。

给定A=（1，0），B=（1，1），C=（0，1），有

$dist(A,B)=1-\frac{\sqrt{2}}{2}$

$dist(B,C)=1-\frac{\sqrt{2}}{2}$

dist(A,C)=1

因此有

$dist(A,B)+dist(B,C)=2-\sqrt{2}<1=dist(A,C)$

A/B测试的陷阱

AB测试是为Web或App界面或流程制作两个（A/B）或多个（A/B/n）版本，在同一时间维度，分别让组成成分相同（相似）的访客群组（目标人群）随机的访问这些版本，收集各群组的用户体验数据和业务数据，最后分析、评估出最好版本，正式采用。

作用：比较应用的多个版本，以确定哪个版本更好。

对模型进行过充分的离线评估之后，为什么还要进行在线A/B测试？

速记：离线评估无法完全消除模型过拟合的影响；离线评估无法完全还原线上的工作环境；线上系统的某些商业指标在离线评估中无法计算。

如何进行线上A/B测试？

进行A/B测试的主要手段是进行用户分桶，即将用户分成实验组和对照组，对实验组的用户施以新模型，对对照组用户施以旧模型。

模型评估的方法

在模型评估过程中，有哪些主要的验证方法，它们的优缺点是什么？

holdout检验（划分训练集和验证集，优点简单直接，缺点：评估指标与原始分组有很大关系）；交叉验证（划分成k个子集，当前子集为验证集其他为训练集，优点，消除分组随机性，缺点：时间开销大）；自助法（进行n次有放回的随机抽样，得到大小为n的训练集，没有被抽出过的样本作验证集，优点：在样本少时可以维持训练集样本规模，缺点：自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差）。

在自助法的采样过程中，对n个样本进行n次自助抽样，当n趋于无穷大时，最终由多少数据从未被选过？

速记：36.8%

详细：一个样本在以此抽样过程中未被抽中的概率为（1-1/n），n次抽样均未抽中的概率为 $(1-\frac{1}{n})^n$ 。当n趋于无穷大时，概率为 $\underset{n\rightarrow \infty }{lim}(1-\frac{1}{n})^n$ 。根据重要极限， $\underset{n\rightarrow \infty }{lim}(1+\frac{1}{n})^n=e$ ，所以有

$\underset{n\rightarrow \infty }{lim}(1-\frac{1}{n})^n=\underset{n\rightarrow \infty }{lim} \frac{1}{(1+\frac{1}{n-1})^n}=\frac{1}{\underset{n\rightarrow \infty}{lim}(1+\frac{1}{n-1})^{n-1}} \cdot \frac{1}{\underset{n\rightarrow \infty}{lim}(1+\frac{1}{n-1})}=\frac{1}{e}\approx 0.368$

超参数调参

超参数有哪些调优方法？

速记：网格搜索，随机搜索，贝叶斯优化等算法。

详细：网格搜索：通过查找搜索范围内所有的点来确定最优值，有很大概率找到全局最优值，但十分消耗计算资源和时间。

随机搜索：思想和网格搜索类似，只是不再测试上届和下届之间所有值，而是在搜索范围中随机选取样本点。它的理论依据是，如果样本点集足够大，那么通过随机采样也能大概率地找到全局最优值或其近似值。比网格搜索要快一些，但是结果是没有保证的。

贝叶斯优化算法：网格搜索和随机搜索在测试一个新点时，会忽略前一个点的信息；而贝叶斯优化算法则充分利用了之前的信息。通过对目标函数形状进行学习，找到使目标函数向全局最优值提升的参数。具体来说，它学习目标函数形状的方法是，首先根据先验分布，假设一个搜集函数；；然后每一次采用新的采样点来测试目标函数时，利用这个信息来更新目标函数的先验分布；最后，算法测试由后验分布给出的全局最值最可能出现的位置的点。但容易陷入局部最优。