机器学习模型学习失败_使机器学习失败的6种方法

机器学习模型学习失败

一般来说,学习的过程通常意味着犯错误并走错误的道路,然后弄清楚将来如何避免这些陷阱。 机器学习也不例外。

在企业中实施机器学习时,请当心:某些技术营销可能会暗示学习非常正确非常快,这是对技术的不切实际的期望。 但事实是,机器学习过程中肯定会有错误。 这些错误可以至少在一段时间内在业务流程中得到编码。 结果是:这些错误现在大规模发生,并且经常在人为控制之外。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 掌握机器学习的13个框架揭秘了机器学习的管道 •回顾: 6个机器学习云您应使用哪个Spark机器学习API? ]

SPR Consulting的首席数据科学家Ray Johnson说:“没有尽职调查的渴望会导致问题,使机器学习的收益几乎毫无用处。”

检测机器学习错误并加以处理将帮助您在该技术上获得更大的成功,并满足您的机器学习期望。

以下是一些可能增加并延长机器学习工具在学习过程中犯下的错误的问题-他们可能永远不会认识和纠正的坏教训。

缺乏对问题的业务了解会导致机器学习失败

一些使用机器学习模型的数据工作人员并没有真正理解机器学习试图解决的业务问题,这可能会在过程中引入错误。

当他的团队使用机器学习工具时,金融服务网站LendingTree的副总裁兼战略与分析负责人Akshay Tandon鼓励其从假设陈述开始。 该语句应询问您要解决的问题,以及要建立的模型来解决该问题。

从统计的角度来看,当今可用的机器学习工具非常强大,Tandon说。 这样做会带来更大的负担,因为如果不谨慎使用这些功能强大的工具,可能会导致重要的错误决策。 如果数据分析团队不谨慎,他们最终可能会得到与团队正在使用的特定数据不匹配的模型。 快速恶化结果; 他说,事情很快就会变得非常错误。

此外,许多企业用户都不知道模型从投入生产的那一刻起就存在一定程度的质量下降,Tandon说。 认识到,就像在汽车或任何其他机器上一样,用户需要不断监控它,并注意它如何影响决策。

数据质量差会导致机器学习错误

垃圾进垃圾出。 如果数据质量不足,则机器学习将受到影响。 数据质量不佳是数据管理人员最关注的问题之一,尽管数据科学家和其他从事信息工作的专业人员的最佳意愿,但它可能会危害大数据分析工作。 当然,它可以使机器学习模型脱轨。

组织经常高估机器学习算法的弹性,而低估不良数据的影响。 约翰逊说,糟糕的数据质量会导致糟糕的结果,并导致组织做出错误的业务决策。 这些决策的结果将损害业务绩效,并使将来的计划很难获得支持。

根据过去和当前的经验,您可以从机器学习驱动的结果中发现似乎没有意义的不良数据质量。

Johnson说,一种主动解决问题的方法是探索性数据分析(EDA)。 EDA可以识别基本数据质量问题,例如异常值,缺失值和域值不一致。 您还可以使用统计抽样之类的技术来确定是否有足够的数据点实例来充分反映总体分布,并定义有关数据质量修复的规则和策略。

错误使用机器学习

咨询公司Cambridge Consultants的专业机器学习工程师Sally Epstein表示:“我们仍然从公司那里看到的最普遍的问题是,除了流行之外,没有其他原因就想使用[机器学习]。 她说,但这必须是成功使用该工具的正确方法。 传统的工程方法可以更快,成本更低的方式提供解决方案。

约翰逊说,如果机器学习可能不是解决问题的最佳选择,而不能完全理解用例,则可能会解决错误的问题。

此外,解决错误的问题将导致机会丧失,因为组织努力使他们的用例适应特定的,不合适的模型。 这包括浪费的资源,这些资源在人员和基础架构方面进行了部署,以获得可以使用更简单的替代方法实现的结果。

为避免错误使用机器学习,请考虑所需的业务成果,问题的复杂性,数据量和属性数量。 约翰逊说,相对简单的问题,例如使用少量具有少量属性的数据的分类聚类和关联规则,可以通过视觉或统计分析来解决。 在这些情况下,部署机器学习可能会比需要的时间和资源更多。

当数据量变得笨拙时,机器学习可能更合适。 但是,通过机器学习练习然后发现业务结果尚未明确定义,从而解决错误问题,并不少见。

机器学习模型可能会有偏差

使用质量较差的数据集可能导致误导性结论。 它不仅会导致不准确和数据丢失,而且还会带来偏差。 人们肯定有偏见的能力,因此有理由认为,由人们创建或启发的模型也可能包含偏见。

爱泼斯坦说,每种机器学习算法对不平衡的类或分布都有不同的敏感性。 如果不能解决这些问题,那么您可能最终会遇到例如依赖于肤色的面部识别工具或生成带有性别偏见的模型,Epstein说。 实际上, 这已经在一些商业服务中发生过。

结论的准确性(无论是算法还是个人)都取决于所处理信息的广度和质量。 咨询公司德勤咨询分析服务领域负责人Vic Katyal说,组织和个人面临的算法偏见的财务,法律和声誉风险是为什么任何使用机器学习的公司都应将道德作为组织的当务之急的一个例子。

Katyal说,在公共领域,信用评分,教育课程,招聘,刑事司法判决等领域都有算法偏见的迹象。 收集,整理或应用的数据不佳,即使在设计最完善,意图最充分的机器学习应用程序中,也会造成偏差。

他说,固有的偏向机器学习系统会威胁到客户或社会利益相关者的弱势群体,并可能造成或维持不公平的结果。

咨询公司麦肯锡公司(McKinsey&Company)在2017年的一份报告中指出,算法偏差是机器学习的最大风险之一,因为它损害了机器学习的实际目的。 该公司表示,这是一个经常被忽视的缺陷,它可能引发代价高昂的错误,而且如果任其发展,可能会导致项目和组织走向完全错误的方向。

麦肯锡说,从一开始就有效地应对这一问题将获得丰硕的回报,从而可以最有效地实现机器学习的真正潜力。

资源不足,无法很好地进行机器学习

在启动机器学习计划时,组织可以轻松地低估其人员和基础设施所需的资源。 机器学习可能对基础设施有大量要求,尤其是在图像,视频和音频处理的情况下。

约翰逊说,如果没有所需的处理能力,那么及时开发基于机器学习的解决方案至多可能很难,即使不是不可能。

还有部署和使用的问题。 如果没有必要的基础架构来部署它和用户使用结果,那么开发机器学习解决方案有什么好处?

部署可扩展的基础架构来支持机器学习可能是昂贵的并且难以维护。 但是,有几种云服务提供了可按需提供的可伸缩机器学习平台。 约翰逊说,云方法允许大规模地进行机器学习的实验,而不会束缚物理硬件的获取,配置和部署。

一些组织希望拥有自己的基础架构。 在这种情况下,云服务可以作为垫脚石和教育经验,因此这些组织可以在进行大量投资之前从基础架构角度了解需求。

从人员的角度来看,数据科学家和机器学习工程师等知识渊博的资源的缺乏可能使机器学习的开发和部署脱轨。 拥有理解机器学习概念,其应用和解释的资源,以确定是否实现特定的业务成果至关重要。

约翰逊说,拥有知识渊博的机器学习技能有多么重要,这一点不可低估。 知识渊博的人员可以帮助确定数据质量问题,确保正确使用和部署机器学习工具,以及帮助建立最佳实践和治理策略。

规划不善和缺乏治理会破坏机器学习

机器学习的努力可能始于热情,但随后却失去了动力并陷入停顿。 这表明规划不善和缺乏治理。

约翰逊说,如果没有适当的指导方针和限制,机器学习的努力将无限期地继续下去,有可能导致巨额的资源支出而没有获得任何收益。

组织需要记住,机器学习是一个反复的过程,随着时间的流逝,可能会对模型进行修改以支持不断变化的需求。 结果,从事机器学习的人员可能对完成这项工作缺乏兴趣,这可能导致不良结果。 项目发起人可能会继续进行其他工作,并且机器学习工作最终将停滞不前。

约翰逊说,需要定期监视机器学习的努力,以保持进展。 如果进度开始放缓,则可能是应该休息一下并重新检查工作的时候了。

翻译自: https://www.infoworld.com/article/3310076/6-ways-to-make-machine-learning-fail.html

机器学习模型学习失败

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值