1、区别欧式距离和余正弦距离?
2、无偏估计和有偏估计的区别?
4.模型评估中不同的指标应用在什么场景中?
(1)准确率acc(分类问题)应用于样本类别比例平衡时,平均准确率,应用在不同类别样本比例非常不平衡时。
(2)针对实际的需求,权衡不同阈值下的召回率和精确率(PR曲线),使用一个指标调和平均值来综合反映模型的性能(排序模型)
(3)均方根误差用于衡量回归模型的好坏,但出现样本的离群点非常大时,从指标的角度考虑,应该选择平均绝对百分比误差指标评估
(4)二值分类器的评估指标:精确率,召回率,F1 score,PR曲线,还有一种roc曲线。 其中roc曲线能降低不同测试卷集带来的干扰,特别适用于正负样本数量不平衡的情况。若是希望看到模型在特定数据集的表现则PR曲线更加合适。
(5)欧式距离体现数值的绝对差异,余弦距离体现方向的相对差异,实际的使用看哪个的差异较为明显 kl距离,评估两个分布之间的差异
(6)A/B测试用于验证模型的最终效果,分实验组和测试组
参考:百面