《百面机器学习》读书笔记-第二章 模型评估

准确率的局限性

准确率是指分类正确的样本占总样本个数的比例

精确率与召回率的权衡

 

平方根误差的意外

 

ROC曲线----受试者工作特征曲线

横坐标为假阳性率,纵坐标为真阳性率

在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?

1 离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果

2 离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不会考虑线上环境的延迟,数据丢失,标签数据缺失等情况。

3 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。比如,上线了新的推荐算法,离线评估往往关注的是ROC曲线,P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率,留存时长,PV访问量的变化。

如何进行线上A/B测试?

主要手段是进行用户分桶,将用户分成实验组和对照组,对实验组的用户施以新模型,对对照组的用户施以旧模型。在分桶的过程中,要注意样本的独立性和采样方式的无偏性。

如何划分实验组和对照组?

模型评估过程中,有哪些主要的验证方法,优缺点

交叉检验

 

k-fold交叉验证:首先将全部样本划分成k个大小相等的样本子集;依次遍历这k个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估;最后把k次评估指标的平均值作为最终的评估指标。在实际实验中,k经常取1 0

超参数有哪些调优方法

一般会采用网格搜索,随机搜索,贝叶斯优化等算法

超参数搜索算法一般包括哪几个要素:一是目标函数,即算法需要最大化/最小化的目标;二是搜索范围,一般通过上限和下限来确定;三是算法的其他参数,如搜索步长

过拟合与欠拟合

过拟合是模型在训练集上的表现良好,但在测试集和新数据上的表现较差

欠拟合是模型在训练和预测时表现都不好的情况

几种 降低过拟合和欠拟合风险的办法

降低过拟合风险

1 从数据入手,获得更多的训练数据

2 降低模型复杂度

3 正则化方法,给模型的参数加上一定的正则约束

4 集成学习方法。集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险,如bagging方法

降低欠拟合风险的方法

1 添加新特征。当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘“上下文特征”“ID类特征”“组合特征”等新的特征

2 增加模型复杂度。简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力

3 减小正则化系数。

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值