《百面》-2.模型评估

目录

 

1.评估指标的局限性

问题1.准确率的局限性。

问题2.精确率与召回率的权衡。

问题3.平方根误差的“意外”

2.ROC曲线

1.问题:什么是ROC曲线?

2.问题:如何绘制ROC曲线?

3.问题:如何计算AUC?

4.问题:ROC曲线相比P-R曲线有什么特点?

3.余弦距离的应用

1.问题:为什么在一些场景中使用余弦相似度而不是欧氏距离?

2.问题:余弦距离是否是一个严格定义的距离?

4.A/B测试的陷阱

1.问题:在对模型进行过充分的离线评估后,为什么还要进行在线A/B测试?

2.问题:如何进行线上A/B测试?

3.问题:如何划分实验组和对照组?

5.模型评估的方法

1.问题:在模型评估过程中,有哪些主要的验证方法,他们的优缺点?

(1)Holdout检验

(2)交叉检验

(3)自助法

2.问题:在自助法的采样过程中,对n个样本进行n次自主抽样,当n趋于无穷大时,最终有多少数据从没被选择过?

6.超参数调优

1.问题:超参数有哪些调优的方法?

(1)网格搜索

(2)随机搜索

(3)贝叶斯优化算法

7.过拟合与欠拟合

1.问题:过拟合与欠拟合具体指什么?

2.问题:能否说出几种降低过拟合和欠拟合风险的方法?


1.评估指标的局限性

问题1.准确率的局限性。

答:准确率的定义:准确率是指分类正确的样本占总数样本个数的比例,

Accuracy=\frac{n_{correct}}{n_{total}}

其中n_{correct}是被正确分类的样本个数,n_{total}为总样本个数

如果负样本占99%,分类器把所有样本都分为负样本,也可以得到99%的准确率。所以不同的类别的样本比例非常不均匀时,占比大的类别玩玩成为影响准确率的主要愿意。为了解决这个问题,可以采用平均准确率。

问题2.精确率与召回率的权衡。

答:精准率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例

召回率是指分类正确的正样本个数站真正的正样本个数的比例。

Precision和Recall是既矛盾有统一的两个指标,为了提高Precision的值,分类器尽量在更有把握的时候才把样本预测为正样本,但是此时因为过于保守,而漏点很多没有把握的正样本,导致Recall降低。

F1 score 和ROC 曲线可以综合的反应一个排序模型的性能。

F1=\frac{2*precision*recall}{precision+recall}

问题3.平方根误差的“意外”

答:RMSE常用来衡量回顾模型的好坏

RMSE=\sqrt{\frac{\sum_{n}^{i=1}(y_{i}-\hat{y}_{i})}{n}}

其中y_{i}是第i个样本点的真实值,\hat{y}_{i}是第i个样本点的预测值,n是样本点的个数。

如果存在个别偏离程度非常大的离群点,即使离群点非常少,也会使RMSE指标变得很差

三个角度解决:

1,如果这些离群点是噪声的话,就在数据预处理的时候去掉。

2.如果不是噪声,就需要进一步提高模型的预测能力,

3.找一个更好的指标,比如平均绝对百分比误差

MAPE=\sum_{i=1}^{n}\left \| \frac{y_{i}-\hat{y}_{i}}{y_{i}} \right \|*\frac{100}{n}

相比RMSE,MAPE把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差。

2.ROC曲线

1.问题:什么是ROC曲线?

答:ROC曲线是 Receiver operating characteristic curve 的简称,中文名为受试者工作特征曲线

ROC的纵坐标为假阳性率(FPR),纵坐标为真阳性率(TPR)

FPR=\frac{FP}{N},TPR=\frac{TP}{N}

P 是真实的正样本的数量,N是真是的负样本的数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数

2.问题:如何绘制ROC曲线?

 

3.问题:如何计算AUC?

答:AUC指的是ROC曲线下的面积,AUC越大说明分类器越可能把真正的正样本排在前面,分类性能越好。

4.问题:ROC曲线相比P-R曲线有什么特点?

答:相比P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状基本不变,而P-R曲线的形状发生剧烈的变化。

优点:ROC适应的场景更多,比如正负样本不均匀

3.余弦距离的应用

1.问题:为什么在一些场景中使用余弦相似度而不是欧氏距离?

答:对于向量A和B,其余弦相似度定义为cos(A,B)=\frac{A\cdot B}{\left \| A \right \|_{2}\left \| B \right \|_{2}},即两个向量夹角的余弦,关注的是向量之间的角度关系,不关心他们的绝对大小。取值范围是【-1,1】

总的来说,欧氏距离体现在数值上的绝对差异,而余弦距离体现在方向上的相对差异。

2.问题:余弦距离是否是一个严格定义的距离?

答:距离的定义:在一个集合中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定型、对称性、三角不等式)成立,则该实数可称为这对元素之间的距离

余弦距离满足正定型和对称性,但是不满足三角不等式,所以他不是严格定义的距离

4.A/B测试的陷阱

1.问题:在对模型进行过充分的离线评估后,为什么还要进行在线A/B测试?

答:

(1)离线评估无法完全消除模型过拟合的影响

(2)离线评估无法完全还原线上的工程环境

(3)线上系统的某些商业指标在离线评估中无法计算

2.问题:如何进行线上A/B测试?

答:进行用户分桶,将用户分成实验组和对照组,实验组使用新模型,对照做使用旧模型。

3.问题:如何划分实验组和对照组?

采样方式无偏性,

5.模型评估的方法

1.问题:在模型评估过程中,有哪些主要的验证方法,他们的优缺点?

答:

(1)Holdout检验

将原始样本随机划分成训练集和验证集

(2)交叉检验

首先将全部样本划分成k个大小相等的样本子集,依次遍历这k个子集,每次把当前子集作为验证集,其余所有子集作为训练集,最后把k次评估指标的平均值作为最终的估计指标。在实际试验中k经常取10

(3)自助法

对于样本集很小时,对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集。n次采样的过程中,有的样本会被重复采样,有的样本没有被抽到过,将这些没有抽出的样本作为验证集。

2.问题:在自助法的采样过程中,对n个样本进行n次自主抽样,当n趋于无穷大时,最终有多少数据从没被选择过?

答:一个样本在抽样过程中没被抽到的概率是(1-\frac{1}{n}).n次就是(1-\frac{1}{n})^{n} 所以n等于无穷大的时候,极限=0.369

所以大约有36.8%的样本从来没被选到过。

6.超参数调优

1.问题:超参数有哪些调优的方法?

答:

(1)网格搜索

通过查找搜素范围内的所有点来确定最优质的,如果采用较大的搜素范围以及较小的步长,很大概率会找到最优值。但是耗费计算资源和时间。

(2)随机搜索

和网格搜索类似,不过不在测试上界和下界之间的所有制,而是随机选取样本点。

(3)贝叶斯优化算法

首先根据先验分布,假设一个搜集函数;然后,每次使用新的采样点来测试目标函数时,利用这个信息来更新目标函数的先验分布,最后。算法测试由后验分布给出的全局最值最可能出现的位置。但是容易陷入局部最优解。

7.过拟合与欠拟合

1.问题:过拟合与欠拟合具体指什么?

2.问题:能否说出几种降低过拟合和欠拟合风险的方法?

答:

降低过拟合

(1)从数据入手,获取更多的训练数据

(2)降低模型的复杂度。减少网络层数、神经元个数

(3)正则化的方法。

(4)集成学习方法。把多个模型集成在一起,来降低单一模型的过拟合风险,如Bagging

降低欠拟合

(1)添加新的特征。如因子分解、梯度提升决策树、Deep-crossing

(2)增加模型的复杂度。

(3)减小正则化系数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值