机器学习在竞赛和工业界应用区别

本文探讨了机器学习在竞赛与工业应用中的不同焦点。竞赛中,模型往往追求极致性能,采用复杂模型、数据增强和大量调参,而忽视稳定性与可解释性。相比之下,工业应用更注重模型的稳定性和数据质量提升,倾向于使用简单模型,强调领域专家知识的运用,以确保模型的可维护性和业务适用性。

机器学习在竞赛和工业界应用是有很大区别的,竞赛通常关注极致的评价指标,而工业应用会在满足应用标准的前提下,会更加关注模型的稳定性、可解释性和领域专家知识的应用

竞赛

通常为了取的比赛名次,极致地通过各种方法提升评价指标

  1. 数据质量:数据源不变,不关注数据质量提升
  2. 模型应用:使用新模型、复杂模型、模型融合的方法
  3. 特征工程:使用计算代价很高的数据增强
  4. 调参:进行大量的模型调参工作
  5. 稳定性:离线模型,对稳定性要求低
  6. 领域专家知识:很多竞赛甚至会对原始数据进行脱敏(如字段名称重新标记),防止专家知识的运用,因此竞赛中的领域专家知识运用较少

工业应用

通常在满足应用场景的条件下,更加关注模型的稳定性,注重数据质量的不断提升

  1. 数据质量:数据是不断变化的,因此关注数据质量提升
  2. 模型应用:一般使用主流、相对简单的模型,较少使用复杂模型、模型融合的方法,这对于模型的可解释性以及问题debug会有帮助
  3. 特征工程:关注工程性能,一般不会使用计算代价很高的数据增强
  4. 调参:超参数固定后,较长时间不动(一般一年调几次)
  5. 稳定性:生产环境线上实时模型部署,对稳定性要求高
  6. 领域专家知识:会运用专家知识、理论模型进行建模
分类:分类可以找出这些不同种类客户之间的特征,让用户了解不同行为类别客户的分布特征,从而进行商业决策业务活动,如:在银行行业,可以通过阿里云机器学习对客户进行分类,以便进行风险评估防控;在销售领域,可以通过对客户的细分,进行潜客挖掘、客户提升交叉销售、客户挽留等 聚类:通常”人以群分,物以类聚”,通过对数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低,以便我们度量对象间的相似性,发现相关性。如在安全领域,通过异常点的检测,可以发现异常的安全行为。通过人人之间的相似性,实现团伙犯罪的发掘 预测:通过对历史事件的学习来积累经验,得出事物间的相似性关联性,从而对事物的未来状况做出预测。比如:预测销售收入利润,预测用户下一个阶段的消费行为等 关联:分析各个物品或者商品之间同时出现的机率,典型的场景如:购物篮分析。比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。在电商网站中,利用关联规则可以发现哪些用户更喜欢哪类的商品,当发现有类似的客户的时候,可以将其它客户购买的商品推荐给相类似的客户,以提高网站的收入。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值