常见面试题(二)~模型评估

模型评估

1 模型评估的局限性

* 准确率的局限性

在这里插入图片描述
缺点:样本不均衡会影响结果
当负样本占99%时,把所有样本预测为负样本也有99%的准确率(例如奢侈品用户数据)

* 精确率与召回率的权衡

Precision与Recall是矛盾又统一的,为了提高Precision,分类器需要推荐出更有把握的正样本,而因为过于保守漏掉很多没把握的正样本(在实际应用中,用户可能想看某些冷门视频,却没被推荐出来,问题出在召回率上)
只用某个点对应的Precision与Recall无法全面的衡量模型的性能
解决方法:
P-R曲线
F1 score–Precision与Recall的调和平均值
在这里插入图片描述
ROC曲线

* 平方根误差的“意外”

在这里插入图片描述
一般而言,RMSE可以较好的反应预测值与真实值的偏离程度
缺点:Outlier对结果影响较大
如何解决:
在数据预处理时去噪
若不认为是噪声点,则改善模型预测能力,将离群点产生的机制建模进去
换更合适的指标,如MAPE(平均绝对百分比误差)
在这里插入图片描述
RMSE VS MAPE:MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响

2 ROC曲线

* 什么是ROC曲线?

纵坐标真正例率TPR,横坐标假正例率FPR
在这里插入图片描述

* 如何计算AUC?

AUC指ROC曲线下方面积大小,AUC越大,分类性能越好

* ROC曲线VS P-R曲线?

当样本分布发生变化时,P-R曲线会发生较大变化,ROC基本稳定
实际问题ROC能更稳定预测分类,若研究者希望看到模型在特定数据集上的表现,P-R曲线能够更直观

3 余弦距离

* 结合你的学习和研究经历,探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离?

余弦距离在高维情况下依然保持“相同为1,正交为0,相反为-1”的性质;欧氏距离受维度影响,范围不固定
当一对文本相似度差距很大,但内容很相近时,若使用词频或者词向量作为特征,它们在特征空间中的欧氏距离通常很大;若使用余弦距离,它们之间的夹角可能很小,相似度高
当分析用户活跃度时,(登录次数,平均观看时长)为(1,10)和(10,100)余弦距离会很小,但实际差异很大,需要使用欧氏距离

* 余弦距离是否是一个严格定义的距离?

严格定义的距离:在一个集合中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定性、对称性、对角不等式)成立,则实数可称为距离
欧氏距离是合法的距离
KL距离(也叫相对熵),用于计算两个分布之间的差异,但不满足对称性和三角不等式
余弦距离只满足正定性和对称性

4 A/B测试的陷阱

* 在对模型进行过充分的离线评估后为什么还要进行在线A/B测试?

  • (1) 离线评估无法完全消除过拟合
  • (2) 无法完全还原线上环境
  • (3) 某些线上指标无法提前计算

* 如何进行线上A/B测试?

用户分桶,分实验组和对照组,每个用户每次只能分到一个桶,usr_id随机

* 如何划分实验组和对照组?

保持只有一个变量

5 模型评估的方法

* 在模型评估中,有哪些主要的验证方法?它们的优缺点是什么?

Holdout检验:随机分组,进行训练和验证
缺点:结果与原始分组有关
交叉检验:①K-fold ②留一法(开销大)
自助法

* 自助采样过程?

在这里插入图片描述

6 超参数调优

* 超参数有哪些调优方法?

①网格搜索、②随机搜索、③贝叶斯优化
网格搜索和随机搜索在测试新点时会忽略前一个点的信息
贝叶斯优化:
①根据先验分布,假设一个搜集函数
②每一次使用新的采样点来测试目标函数时,利用这个信息更新先验分布
③后验分布给出最优点
缺点:可能达到局部最优
如何解决:后验分布结合随机采样

7 过拟合与欠拟合

* 过拟合与欠拟合如何缓解?

缓解欠拟合
①添加新特征; ②增加模型复杂度; ③减小正则化系数
缓解过拟合
①增大数据集; ②降低模型复杂度; ③正则化; ④集成学习…

这是读书笔记,后续看到同类面试题型的再整理更新把

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值