常见面试题(二)~模型评估
模型评估
1 模型评估的局限性
* 准确率的局限性
缺点:样本不均衡会影响结果
当负样本占99%时,把所有样本预测为负样本也有99%的准确率(例如奢侈品用户数据)
* 精确率与召回率的权衡
Precision与Recall是矛盾又统一的,为了提高Precision,分类器需要推荐出更有把握的正样本,而因为过于保守漏掉很多没把握的正样本(在实际应用中,用户可能想看某些冷门视频,却没被推荐出来,问题出在召回率上)
只用某个点对应的Precision与Recall无法全面的衡量模型的性能
解决方法:
P-R曲线
F1 score–Precision与Recall的调和平均值
ROC曲线
* 平方根误差的“意外”
一般而言,RMSE可以较好的反应预测值与真实值的偏离程度
缺点:Outlier对结果影响较大
如何解决:
在数据预处理时去噪
若不认为是噪声点,则改善模型预测能力,将离群点产生的机制建模进去
换更合适的指标,如MAPE(平均绝对百分比误差)
RMSE VS MAPE:MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响
2 ROC曲线
* 什么是ROC曲线?
纵坐标真正例率TPR,横坐标假正例率FPR
* 如何计算AUC?
AUC指ROC曲线下方面积大小,AUC越大,分类性能越好
* ROC曲线VS P-R曲线?
当样本分布发生变化时,P-R曲线会发生较大变化,ROC基本稳定
实际问题ROC能更稳定预测分类,若研究者希望看到模型在特定数据集上的表现,P-R曲线能够更直观
3 余弦距离
* 结合你的学习和研究经历,探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离?
余弦距离在高维情况下依然保持“相同为1,正交为0,相反为-1”的性质;欧氏距离受维度影响,范围不固定
当一对文本相似度差距很大,但内容很相近时,若使用词频或者词向量作为特征,它们在特征空间中的欧氏距离通常很大;若使用余弦距离,它们之间的夹角可能很小,相似度高
当分析用户活跃度时,(登录次数,平均观看时长)为(1,10)和(10,100)余弦距离会很小,但实际差异很大,需要使用欧氏距离
* 余弦距离是否是一个严格定义的距离?
严格定义的距离:在一个集合中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定性、对称性、对角不等式)成立,则实数可称为距离
欧氏距离是合法的距离
KL距离(也叫相对熵),用于计算两个分布之间的差异,但不满足对称性和三角不等式
余弦距离只满足正定性和对称性
4 A/B测试的陷阱
* 在对模型进行过充分的离线评估后为什么还要进行在线A/B测试?
- (1) 离线评估无法完全消除过拟合
- (2) 无法完全还原线上环境
- (3) 某些线上指标无法提前计算
* 如何进行线上A/B测试?
用户分桶,分实验组和对照组,每个用户每次只能分到一个桶,usr_id随机
* 如何划分实验组和对照组?
保持只有一个变量
5 模型评估的方法
* 在模型评估中,有哪些主要的验证方法?它们的优缺点是什么?
Holdout检验:随机分组,进行训练和验证
缺点:结果与原始分组有关
交叉检验:①K-fold ②留一法(开销大)
自助法
* 自助采样过程?
6 超参数调优
* 超参数有哪些调优方法?
①网格搜索、②随机搜索、③贝叶斯优化
网格搜索和随机搜索在测试新点时会忽略前一个点的信息
贝叶斯优化:
①根据先验分布,假设一个搜集函数
②每一次使用新的采样点来测试目标函数时,利用这个信息更新先验分布
③后验分布给出最优点
缺点:可能达到局部最优
如何解决:后验分布结合随机采样
7 过拟合与欠拟合
* 过拟合与欠拟合如何缓解?
缓解欠拟合
①添加新特征; ②增加模型复杂度; ③减小正则化系数
缓解过拟合
①增大数据集; ②降低模型复杂度; ③正则化; ④集成学习…
这是读书笔记,后续看到同类面试题型的再整理更新把