机器学习训练好的模型的使用_一份关于机器学习“模型再训练”的终极指南

本文探讨了机器学习模型部署后面临的模型漂移问题,定义了模型漂移并阐述了如何识别和跟踪。建议通过定期重新训练模型以适应环境变化,同时讨论了再训练的频率和方法,包括批量再训练、自动化触发和在线学习。
摘要由CSDN通过智能技术生成

机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下,我们会希望自己的模型在生产环境中进行预测时,能够像使用训练过程中使用的数据一样,准确地预测未来情况。

  当我们将模型部署到生产中时,往往会假设未来将使用到的数据会类似于过去模型评估期间所使用的数据。具体来说,我们可能会假设,特征和目标的分布将保持相当的恒定。但是这种假设通常不成立。趋势会随着时间的推移而变化,人们的兴趣会随着季节的变化而变化,股票市场会起伏不定。因此,我们的模型必须适应这些变化。

  世界是持续变化的,因此模型部署应视为一个连续的过程,而不是完成第一次部署之后就扭头去开展下一个项目。如果机器学习团队的工程师发现数据分布与原始训练集的数据分布有明显出入,则需要重新训练模型。这个现象——通常被称为模型漂移(model drift)——可以缓解,但是会带来额外的开销,如监视基础设施、监督和流程等等。

  在本文中,笔者想对模型漂移下定义,并讨论如何去识别和跟踪模型漂移。然后,我将描述如何重新训练模型,来减轻漂移对预测性能的影响,并对应多久重新训练一次模型做出建议。最后,我将介绍启用模型重新训练的几种方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值