1. 评估指标的局限性
准确率的局限性
速记:当不同类别的样本比例非常不均匀时,占比大的类别往往成为影响准确率的最主要因素。
详细:先给出准确率的计算公式:
显然,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。为解决此问题,可以使用平均准确率(每个类别下准确率的算术平均)作为模型的评估指标。
精确率与召回率的权衡
精确率:指分类正确的正样本个数占分类器判定为正样本的样本个数比例。
召回率:指分类正确的正样本数占真正的正样本个数的比例。
速记:只用某个点对应的精确率和召回率不能全面地衡量模型的性能,只有通过P-R曲线的整体表现,才能够对模型进行更为全面的评估。
详细:精确率和召回率是既矛盾又统一的两个指标,为了提高精确率,分类器需要在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,
P-R曲线的画法:横轴是召回率,纵轴是精确率。对于一个排序模型来说,其P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,否则为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。
除P-R曲线外,F1值和ROC曲线也能综合地反映一个排序模型的性能。
平方根误差的“意外”
平方根误差:洋名字叫RMSE,公式如下:
速记:如果存在个别偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。
详细:解决方案:1.如果离群点是噪点的话,在预处理是去掉。2.如果不是噪点,那就需要提升模型的预测能力。3.可以找一个更合适的指标来评估该模型。如平均绝对百分比误差,它定义为
相比RMSE,MAPE相对于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。
ROC曲线
什么是ROC曲线?
速记:横坐标为假阳性率(FPR);纵坐标为真阳性率(TPR)。
详细:
其中,P为真实正样本数量,N为真实负样本数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被预测为正样本的个数。
如何绘制ROC曲线?
速记:通过不断移动分类器的“截断点”来生成曲线上一组关键点。
详细:截断点概念与P-R曲线中的阈值相似,都是指分类器将样本判为正的阈值。
其实还有一种方法画ROC曲线,设正样本数量为 P,负样本数量为N。把横轴刻度间隔设定为1/N,纵轴设定为1/P;根据模型输出的预测概率对样本进行排序(从高到低);依次遍历样本,同时从零点开始绘制ROC曲线,每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线,没遇到一个负样本就沿横轴方向绘制一个刻度间隔的曲线,指导遍历完所有样本,曲线最终停在(1,1)上。
如何计算AUC?
速记:AUC指的是ROC曲线下的面积大小。计算AUC只需沿ROC横轴做积分即可。
详细:该值能够量化地反映基于ROC曲线衡量出的模型性能。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。
ROC曲线相比P-R曲线有什么特点?
速记:相比P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线能够基本保持不变,而P-R曲线的形状一般会有较剧烈的变化。
详细:这个特点让ROC曲线能够尽量降低不同测试集带来的干扰,更加客观低衡量模型本身的性能。在很多实际问题中,正负样本数量往往很不均衡。
余弦距离的应用
在分析两个特征向量之间的相似性时,常用余弦相似度来表示。余弦相似度的取值范围是【-1,1】,相同的两个向量之间的相似度为1。如果希望得到类似距离的表示,将1减去余弦相似度即为余弦距离。因此余弦距离的取值范围为【0,2】,相同的两个向量余弦距离为0.
余弦相似度:
为什么在一些场景中要使用余弦相似度而不欧氏距离?
速记:余弦相似度关心的是向量之间的角度关系,并不关心它们的绝对大小。欧氏距离的数值受维度影响,范围不固定。
详细:当一对文本相似度的长度差距很大、但内容相近时,如果使用词频或词向量作为特征,它们在特征空间中的欧氏距离通常很大;而如果使用余弦相似度的花,它们之间的夹角可能很小,因而相似度高。
余弦距离是否是一个严格定义的距离?
速记:不是,只满足正定性和对称性,不满足三角不等式。
详细:距离定义:在一个集合中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定性,对称性,三角不等式)成立,则该实数可称为这对元素之间的距离。
余弦距离满足正定性和对称性,但是不满足三角不等式,因此它不是严格定义的距离。具体来说,对于向量A,B,三条 距离公理的证明如下。
正定性:d(x,y)>=0,取等号当且仅当x=y
对称性:d(x,y)=d(y,x
正定性
根据余弦距离定义,有
因为,因此有dist(A,B)>=0恒成立。特别地,有
因此余弦距离满足正定性
对称性
根据定义显然可得
三角不等式
该性质并不成立,下面给出一个反例。
给定A=(1,0),B=(1,1),C=(0,1),有
因此有
A/B测试的陷阱
AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
作用:比较应用的多个版本,以确定哪个版本更好。
对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?
速记:离线评估无法完全消除模型过拟合的影响;离线评估无法完全还原线上的工作环境;线上系统的某些商业指标在离线评估中无法计算。
如何进行线上A/B测试?
进行A/B测试的主要手段是进行用户分桶,即将用户分成实验组和对照组,对实验组的用户施以新模型,对对照组用户施以旧模型。
模型评估的方法
在模型评估过程中,有哪些主要的验证方法,它们的优缺点是什么?
holdout检验(划分训练集和验证集,优点简单直接,缺点:评估指标与原始分组有很大关系);交叉验证(划分成k个子集,当前子集为验证集其他为训练集,优点,消除分组随机性,缺点:时间开销大);自助法(进行n次有放回的随机抽样,得到大小为n的训练集,没有被抽出过的样本作验证集,优点:在样本少时可以维持训练集样本规模,缺点:自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差)。
在自助法的采样过程中,对n个样本进行n次自助抽样,当n趋于无穷大时,最终由多少数据从未被选过?
速记:36.8%
详细:一个样本在以此抽样过程中未被抽中的概率为(1-1/n),n次抽样均未抽中的概率为。当n趋于无穷大时,概率为。根据重要极限,,所以有
超参数调参
超参数有哪些调优方法?
速记:网格搜索,随机搜索,贝叶斯优化等算法。
详细:网格搜索:通过查找搜索范围内所有的点来确定最优值,有很大概率找到全局最优值,但十分消耗计算资源和时间。
随机搜索:思想和网格搜索类似,只是不再测试上届和下届之间所有值,而是在搜索范围中随机选取样本点。它的理论依据是,如果样本点集足够大,那么通过随机采样也能大概率地找到全局最优值或其近似值。比网格搜索要快一些,但是结果是没有保证的。
贝叶斯优化算法:网格搜索和随机搜索在测试一个新点时,会忽略前一个点的信息;而贝叶斯优化算法则充分利用了之前的信息。通过对目标函数形状进行学习,找到使目标函数向全局最优值提升的参数。具体来说,它学习目标函数形状的方法是,首先根据先验分布,假设一个搜集函数;;然后每一次采用新的采样点来测试目标函数时,利用这个信息来更新目标函数的先验分布;最后,算法测试由后验分布给出的全局最值最可能出现的位置的点。但容易陷入局部最优。
过拟合与欠拟合
在模型评估过程中,过拟合和欠拟合具体是指什么现象?
速记:过就是过了,欠就是不够。
详细:过拟合可能是模型把噪声数据的特征也学习到了模型中,或者过度拟合训练数据,导致泛化能力低。欠拟合则是根本没有捕捉到数据的特征,不能很好地拟合数据。
能够说出几种降低过拟合和欠拟合风险的方法?
速记:降低过拟合:更多训练数据;降低模型复杂度;正则化方法;集成学习方法。降低欠拟合:添加新特征;增加模型复杂度;减小正则化系数。