机器学习模型优化中常见问题和解决思路

正行天下

于 2017-05-09 09:02:33 发布

阅读量1w

点赞数 7

分类专栏：机器学习大数据文章标签：机器学习模型优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mozhizun/article/details/71438821

版权

模型优化中常见问题和解决思路

1 训练集上欠拟合，auc等度量指标不佳

训练集上欠拟合一般是由于数据中特征或模型无法充分刻画预测的目标导致。可以以下的优化思路：

1）加新的好特征

好的特征可以是新的业务强相关特征，也可以是根据前面文章特征工程部分的思路提取的特征。

特别关注和预测目标直接相关特征的细粒度刻画。例如ctr预测中，将历史ctr点击率通过不同角度进行交叉深度表示，例如时间维度：这个词过去x天、过去x周、过去x月、白天、晚上、工作日、周末的历史ctr统计；不同广告位上的ctr；不同广告样式下的ctr；不同相关性系数的ctr；不同类别用户下的ctr等。也可以做多维度特征交叉组合，产生细粒度的刻画特征。具体特征工程部分可以参考：《机器学习模型应用以及模型优化的一些思路》

2）模型上可以调低训练步长、增大树的个数以及深度等可以让模型更精细化学习的参数。

3）使用更复杂的模型，例如深度学习或者组合模型等。

4）如果某类样本存在预测特别差，可以考虑进行上下采样的处理，使的训练样本的分布向预测的目标倾斜。

2 训练集上过拟合，但预测集效果差（泛化能力差）

1）增大数据集

可能是因为数据集少，导致对训练集过度学习。

直接思路就是扩展数据集，除了常规根据业务特性加入更大范围或者更长时间段的方式外，也可以通过时间窗口滑动、上

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。