机器学习平台建设(三)

部署

绝大部分机器学习模型都用于推理预测,即输入数据,机器学习模型给出结果。模型创建好后,还需要部署后进行推理应用,产生价值。部署并不只是将模型复制到线上,还涉及到线上模型的管理等功能。

持续集成

持续集成是将新的模型自动的、可控的集成到生产环境的过程。与之相对的是手工集成,即每次有新模型后,需要人工配置,将新模型一次性发布到生产环境中。

新模型的集成对于某些业务是非常关键的,需要非常小心的测试、发布。虽然可以在模型的建模试验环节中进行很多试验,但模拟的试验和实际环境不完全一样。如果贸然发布,有可能给业务带来负面冲击。如,电子商务网站有几十万种商品,用户需要搜索才能找到自己想要的商品。如果发布的模型不能找出用户真正想要的商品,业务量会立刻出现显著的下降。

在发布业务敏感模型时,通常需要平台能控制到达新模型的用户请求数量,从而观察新模型对业务的影响是正面的还是负面的,再决定是进一步部署新模型,还是撤回模型。在平台的运维体系还不能精确获得业务影响指标时,可以多花一些时间,进行灰度发布,将业务分阶段切换到新模型上。在灰度发布的过程中,逐步验证新模型能够正常使用,响应速度上没有显著下降,对业务没有显著负面影响,最终完成新模型的部署。

有时候发布的新模型是和新代码相配合的,如果要回滚新模型,还涉及到将新代码同时回滚。操作上会更复杂,需要强大的运维体系和实践准则来保证整个过程的顺利进行。

除了模型的持续集成外,还包括数据的持续集成,即将模型持续的在最新数据集上训练,这样可以响应最新的热点数据。平台要将数据的采集工作打通,能够不断的将新数据集成到生产环境中。另外,在生产环境中要控制好进行数据持续集成所需的资源,避免需求的资源过大,影响整个服务的性能。

模型评估

对模型效果的精确评估,有助于确定模型是否可以上线,或哪些方面需要继续改进。

有些应用可以马上获得用户的标记结果,就能即时评估模型的效果。平台需要将模型的推理结果和用户标记结果组合到一起,汇总出模型的效果数据。平台可提供可视化的界面,帮助部署过程决策。

对于不能获得用户标记结果的模型,要寻找评估模型效果的方法,要能近实时的看到模型效果。如,对于商品推荐模型,需要提高用户点击推荐商品的比例。要把点击数量汇总起来,用于评估新的推荐模型的有效性。如果暂不能评定模型效果,可以用A/B测试的方法,让两个模型在线上共存一段时间,随机接受输入。最后再评估通过哪个模型对最终业务绩效的影响更好。

除了模型效果外,还需要评估计算资源负载和响应速度。如果模型有了较大的改动,可能会在执行性能上有较大变动。在资源紧张的情况下,如果没有注意到这些因素,可能会因为模型发布而造成服务负载过高,甚至影响会扩展到全线服务上,影响整个业务的稳定。

在一些复杂的多模型组合下,特别是有很大的团队在平行开发模型时,就需要更复杂的模型评估方法。如,一些大型搜索引擎,会有多至数十个团队在改进搜索引擎的排序算法,可能每天都有新模型要发布。这时候需要建立一套强大的模型效果验证工具,假设评估中的模型之间没有关联,可以让小部分用户的输入随机使用这些模型的组合。然后通过算法计算出每个模型对结果的影响数据,从而决定模型最终是否能上线。

下表为灰度发布比例与评估重点的建议。

发布比例 评估重点
  • 27
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值