准确率的局限性
准确率是指分类正确的样本占总样本个数的比例
精确率与召回率的权衡
平方根误差的意外
ROC曲线----受试者工作特征曲线
横坐标为假阳性率,纵坐标为真阳性率
在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?
1 离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果
2 离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不会考虑线上环境的延迟,数据丢失,标签数据缺失等情况。
3 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。比如,上线了新的推荐算法,离线评估往往关注的是ROC曲线,P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率,留存时长,PV访问量的变化。
如何进行线上A/B测试?
主要手段是进行用户分桶,将用户分成实验组和对照组,对实验组的用户施以新模型,对对照组的用户施以旧模型。在分桶的过程中,要注意样本的独立性和采样方式的无偏性。
如何划分实验组和对照组?
模型评估过程中,有哪些主要的验证方法,优缺点
交叉检验
k-fold交叉验证:首先将全部样本划分成k个大小相等的样本子集;依次遍历这k个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估;最后把k次评估指标的平均值作为最终的评估指标。在实际实验中,k经常取1 0
超参数有哪些调优方法
一般会采用网格搜索,随机搜索,贝叶斯优化等算法
超参数搜索算法一般包括哪几个要素:一是目标函数,即算法需要最大化/最小化的目标;二是搜索范围,一般通过上限和下限来确定;三是算法的其他参数,如搜索步长
过拟合与欠拟合
过拟合是模型在训练集上的表现良好,但在测试集和新数据上的表现较差
欠拟合是模型在训练和预测时表现都不好的情况
几种 降低过拟合和欠拟合风险的办法
降低过拟合风险
1 从数据入手,获得更多的训练数据
2 降低模型复杂度
3 正则化方法,给模型的参数加上一定的正则约束
4 集成学习方法。集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险,如bagging方法
降低欠拟合风险的方法
1 添加新特征。当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘“上下文特征”“ID类特征”“组合特征”等新的特征
2 增加模型复杂度。简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力
3 减小正则化系数。
542

被折叠的 条评论
为什么被折叠?



