《百面》-2.模型评估

东东就是我

于 2019-11-10 21:24:44 发布

阅读量693

点赞数

分类专栏：百面机器学习（笔记）文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33228039/article/details/103000965

版权

百面机器学习（笔记）专栏收录该内容

14 篇文章 1 订阅

订阅专栏

目录

1.评估指标的局限性

问题1.准确率的局限性。

问题2.精确率与召回率的权衡。

问题3.平方根误差的“意外”

1.问题：什么是ROC曲线？

2.问题：如何绘制ROC曲线？

3.问题：如何计算AUC？

4.问题：ROC曲线相比P-R曲线有什么特点？

3.余弦距离的应用

1.问题：为什么在一些场景中使用余弦相似度而不是欧氏距离？

2.问题：余弦距离是否是一个严格定义的距离？

4.A/B测试的陷阱

1.问题：在对模型进行过充分的离线评估后，为什么还要进行在线A/B测试？

2.问题：如何进行线上A/B测试？

3.问题：如何划分实验组和对照组？

5.模型评估的方法

1.问题：在模型评估过程中，有哪些主要的验证方法，他们的优缺点？

（1）Holdout检验

（2）交叉检验

（3）自助法

2.问题：在自助法的采样过程中，对n个样本进行n次自主抽样，当n趋于无穷大时，最终有多少数据从没被选择过？

6.超参数调优

1.问题：超参数有哪些调优的方法？

（1）网格搜索

（2）随机搜索

（3）贝叶斯优化算法

7.过拟合与欠拟合

1.问题：过拟合与欠拟合具体指什么？

2.问题：能否说出几种降低过拟合和欠拟合风险的方法？

1.评估指标的局限性

问题1.准确率的局限性。

答：准确率的定义：准确率是指分类正确的样本占总数样本个数的比例，

$Accuracy=\frac{n_{correct}}{n_{total}}$

其中 $n_{correct}$ 是被正确分类的样本个数， $n_{total}$ 为总样本个数

如果负样本占99%，分类器把所有样本都分为负样本，也可以得到99%的准确率。所以不同的类别的样本比例非常不均匀时，占比大的类别玩玩成为影响准确率的主要愿意。为了解决这个问题，可以采用平均准确率。

问题2.精确率与召回率的权衡。

答：精准率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例

召回率是指分类正确的正样本个数站真正的正样本个数的比例。

Precision和Recall是既矛盾有统一的两个指标，为了提高Precision的值，分类器尽量在更有把握的时候才把样本预测为正样本，但是此时因为过于保守，而漏点很多没有把握的正样本，导致Recall降低。

F1 score 和ROC 曲线可以综合的反应一个排序模型的性能。

$F1=\frac{2*precision*recall}{precision+recall}$

问题3.平方根误差的“意外”

答：RMSE常用来衡量回顾模型的好坏

$RMSE=\sqrt{\frac{\sum_{n}^{i=1}(y_{i}-\hat{y}_{i})}{n}}$

其中 $y_{i}$ 是第i个样本点的真实值， $\hat{y}_{i}$ 是第i个样本点的预测值，n是样本点的个数。

如果存在个别偏离程度非常大的离群点，即使离群点非常少，也会使RMSE指标变得很差

三个角度解决：

1，如果这些离群点是噪声的话，就在数据预处理的时候去掉。

2.如果不是噪声，就需要进一步提高模型的预测能力，

3.找一个更好的指标，比如平均绝对百分比误差

$MAPE=\sum_{i=1}^{n}\left \| \frac{y_{i}-\hat{y}_{i}}{y_{i}} \right \|*\frac{100}{n}$

相比RMSE,MAPE把每个点的误差进行了归一化，降低了个别离群点带来的绝对误差。

2.ROC曲线

1.问题：什么是ROC曲线？

答：ROC曲线是 Receiver operating characteristic curve 的简称，中文名为受试者工作特征曲线

ROC的纵坐标为假阳性率（FPR），纵坐标为真阳性率（TPR）

$FPR=\frac{FP}{N},TPR=\frac{TP}{N}$

P 是真实的正样本的数量，N是真是的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被分类器预测为正样本的个数

2.问题：如何绘制ROC曲线？

3.问题：如何计算AUC？

答：AUC指的是ROC曲线下的面积，AUC越大说明分类器越可能把真正的正样本排在前面，分类性能越好。

4.问题：ROC曲线相比P-R曲线有什么特点？

答：相比P-R曲线，ROC曲线有一个特点，当正负样本的分布发生变化时，ROC曲线的形状基本不变，而P-R曲线的形状发生剧烈的变化。

优点：ROC适应的场景更多，比如正负样本不均匀

3.余弦距离的应用

1.问题：为什么在一些场景中使用余弦相似度而不是欧氏距离？

答：对于向量A和B，其余弦相似度定义为 $cos(A,B)=\frac{A\cdot B}{\left \| A \right \|_{2}\left \| B \right \|_{2}}$ ,即两个向量夹角的余弦，关注的是向量之间的角度关系，不关心他们的绝对大小。取值范围是【-1,1】

总的来说，欧氏距离体现在数值上的绝对差异，而余弦距离体现在方向上的相对差异。

2.问题：余弦距离是否是一个严格定义的距离？

答：距离的定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定型、对称性、三角不等式）成立，则该实数可称为这对元素之间的距离

余弦距离满足正定型和对称性，但是不满足三角不等式，所以他不是严格定义的距离

4.A/B测试的陷阱

1.问题：在对模型进行过充分的离线评估后，为什么还要进行在线A/B测试？

答：

（1）离线评估无法完全消除模型过拟合的影响

（2）离线评估无法完全还原线上的工程环境

（3）线上系统的某些商业指标在离线评估中无法计算

2.问题：如何进行线上A/B测试？

答：进行用户分桶，将用户分成实验组和对照组，实验组使用新模型，对照做使用旧模型。

3.问题：如何划分实验组和对照组？

采样方式无偏性，

5.模型评估的方法

1.问题：在模型评估过程中，有哪些主要的验证方法，他们的优缺点？

答：

（1）Holdout检验

将原始样本随机划分成训练集和验证集

（2）交叉检验

首先将全部样本划分成k个大小相等的样本子集，依次遍历这k个子集，每次把当前子集作为验证集，其余所有子集作为训练集，最后把k次评估指标的平均值作为最终的估计指标。在实际试验中k经常取10

（3）自助法

对于样本集很小时，对于总数为n的样本集合，进行n次有放回的随机抽样，得到大小为n的训练集。n次采样的过程中，有的样本会被重复采样，有的样本没有被抽到过，将这些没有抽出的样本作为验证集。

2.问题：在自助法的采样过程中，对n个样本进行n次自主抽样，当n趋于无穷大时，最终有多少数据从没被选择过？

答：一个样本在抽样过程中没被抽到的概率是 $(1-\frac{1}{n})$ .n次就是 $(1-\frac{1}{n})^{n}$ 所以n等于无穷大的时候，极限=0.369

所以大约有36.8%的样本从来没被选到过。

6.超参数调优

1.问题：超参数有哪些调优的方法？

答：

（1）网格搜索

通过查找搜素范围内的所有点来确定最优质的，如果采用较大的搜素范围以及较小的步长，很大概率会找到最优值。但是耗费计算资源和时间。

（2）随机搜索

和网格搜索类似，不过不在测试上界和下界之间的所有制，而是随机选取样本点。

（3）贝叶斯优化算法

首先根据先验分布，假设一个搜集函数；然后，每次使用新的采样点来测试目标函数时，利用这个信息来更新目标函数的先验分布，最后。算法测试由后验分布给出的全局最值最可能出现的位置。但是容易陷入局部最优解。

7.过拟合与欠拟合

1.问题：过拟合与欠拟合具体指什么？

2.问题：能否说出几种降低过拟合和欠拟合风险的方法？

答：

降低过拟合

（1）从数据入手，获取更多的训练数据

（2）降低模型的复杂度。减少网络层数、神经元个数

（3）正则化的方法。

（4）集成学习方法。把多个模型集成在一起，来降低单一模型的过拟合风险，如Bagging

降低欠拟合

（1）添加新的特征。如因子分解、梯度提升决策树、Deep-crossing

（2）增加模型的复杂度。

（3）减小正则化系数。

东东就是我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

东东就是我 CSDN认证博客专家 CSDN认证企业博客

码龄9年

208: 原创

22万+: 周排名

2万+: 总排名

19万+: 访问

: 等级

2983: 积分

206: 粉丝

219: 获赞

92: 评论

560: 收藏

私信

关注

热门文章

分类专栏

最新评论

keras 版 maskrcnn h5 转onnx 转 bp
zhaoshaohua_001: 前辈，能不能帮忙改下啊，付您费用，顺便能加您个联系方式吗，可以的话发我邮箱，加您一下，
keras 版 maskrcnn h5 转onnx 转 bp
东东就是我: 我也不太记得了，好久之前的代码了。
keras 版 maskrcnn h5 转onnx 转 bp
zhaoshaohua_001: 博主，您好，您的原版keras模型转onnx，输出是1x topknum x 6的，也就是batch=1的，我试着改成batchsize=3，模型加载不起来，能否有偿请您改成多输入的啊，我邮箱zhaoshaohua.001@163.com,谢谢了
keras 版 maskrcnn h5 转onnx 转 bp
zhaoshaohua_001: 您好，请问您这个最后部署成功了吗，能否有偿请教一下您！
mask rcnn onnxruntime c++ 学习笔记
zhaoshaohua_001: 请问博主，按照您的代码转换出来的onnx模型，似乎只能是单张推理，如果想多张处理的话，在转换时要改哪里呢，能回复一下吗，谢谢了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。