机器学习模型不能部署的几大原因

  模型部署失败的“史诗”级案例发生在Netflix主办的一个数据分析比赛中。参赛者需要使用协同过滤算法来预测用户对电影的评分,优胜者可以获得100万美元的大奖,可悲的是,直到比赛结束都没有一个模型完成部署。
  不仅仅是Netflix,大多数公司都会遇到这样的问题,一半的预测模型都没有成功部署。没有人想建立一个不能在现实世界中使用的模型,这就像是烤了一个美味的蛋糕,你自己尝了也觉得很不错,但却永远都不能同别人分享。
  在本文中,我们将讨论模型部署失败的各种情况,并将他们归结于七大原因。

  1. 假正例数量太大
      何为假正例?在预测模型中,你认为是正例但实际上是负例的样本就是假正例。假正例数量太大会出现什么样的情况呢?举个例子,你在一家电商企业任职,负责提高用户留存。根据以往的经验,在特定的时间段,1000名顾客中会有100名流失。现在你创建了一个预测模型,针对1000位用户,凭借对其行为的分析,给出了100位最有可能流失的用户名单,以一系列极其吸引人的购物优惠促使其留下来。但是,由于预测模型的假正例比率太高,这100位用户中有60位都不是会离开的用户,那么花出去的每1块钱只有4毛用在了正确的地方,这一预测模型就会由于负的损益而不能付诸实施。

  2. 对业务基础模型理解不足
      近来,使用复杂机器学习算法和模型的要求日益提高。换句话说,很多公司正在放弃使用传统数据模型。毫无疑问,使用复杂的技术能带来可观的预估能力,但是这将导致更长的交付时间;而且由于大多数业务应用都具有高度的动态性,所以随着时间的推移,模型的复杂度将不断提升,部署的难度也随之增长。

  3. 对业务问题理解不足
      许多数据科学家会忙于建立机器学习模型而削减学习业务问题的时间,这可能会导致建立出的模型缺乏实际应用性而不能成功部署。

  4. 模型太复杂
      模型的预测能力是机器学习的灵魂,但总体上看,预测能力需要考虑模型复杂度的代价。为了提升模型复杂度而开始引入双变量和三变量,企图使得模型更强大,但这些变量在业务上并没有任何意义。因此,此类模型在书本中可能是惊人的,但他们也只能停留在书本中,而不能处理到现实世界的真实问题。

  5. 没有理解根本原因而只是为了提高效果
      我们构建机器学习模型的目的是找到影响结果的根本原因:例如什么改变着用户的点击率?什么提高了用户的购买率等等。仅仅把结果变量作为输入放到模型中再输出,这样没有任何意义,因为未改变起到关键作用的变量。

在这里插入图片描述
6. 模型不稳定
  高性能的模型通常高度不稳定,常常跟不上业务内容的迭代。那么在这种情况下,模型需要经常更新换代,其短暂的时间窗口可能会直接影响模型的部署。
7. 模型过度依赖动态变量
  动态变量是为模型带来实际预测能力的变量。但是,在实际场景中可能会遇到一些动态变量的值在训练集中完全没有出现过的情况。
例如,某个模型可能会将工作日天数作为重要变量来预测电商平台的每月销售额。我们说这个变量具有高度预测性,但是对于实际情况而言,有几个月只有10-15个工作日,而如果训练集中没有这样的月份,那么此模型很可能无法准确地进行预测。

  部署模型和训练模型不同,需要更多考虑实际的业务需求,理解了这些部署过程中的挑战,机器学习才能更好的为企业服务。

本文翻译自https://www.analyticsvidhya.com/blog/2016/05/8-reasons-analytics-machine-learning-models-fail-deployed/,略有改动。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值