机器学习中的五个实际问题及其业务影响

最新推荐文章于 2022-04-08 11:42:18 发布

跟着紫枫学姐学CDA

最新推荐文章于 2022-04-08 11:42:18 发布

阅读量555

点赞数

文章标签：机器学习

原文链接：https://zhuanlan.zhihu.com/p/197798982

版权

如今，企业正在处理大量数据，并且其到达速度比以往任何时候都要快。同时，竞争格局正在迅速变化，因此能够快速做出决策至关重要。

正如杰森·詹宁斯（Jason Jennings）和劳伦斯·霍顿（Laurence Haughton）所说的那样：“不是大吃小钱，而是快吃慢食”。

业务成功来自于使用最佳信息做出快速决策。

机器学习（ML）正在推动这一发展。无论企业是试图向客户提出建议，改进其制造流程还是预期市场变化，ML都可以通过处理大量数据来提供帮助，从而在公司寻求竞争优势时更好地为其提供支持。

但是，尽管机器学习提供了巨大的机会，但仍然存在一些挑战。ML系统依赖大量数据以及执行复杂计算的能力。外部因素，例如客户期望值的变化或意外的市场波动，意味着需要监控和维护机器学习模型。

此外，机器学习中还有一些实际问题需要解决。在这里，我们将仔细研究五个关键的实际问题及其业务含义。

1.数据质量
机器学习系统依赖数据。该数据可大致分为两类：要素和标签。

特征是ML模型的输入。例如，这可以是来自传感器，客户调查表，网站cookie或历史信息的数据。

这些功能的质量可以变化。例如，客户可能无法正确填写调查表或忽略答复。传感器可能会发生故障并传递错误的数据，网站cookie可能会给出有关用户在网站上的精确操作的不完整信息。数据集的质量很重要，因此可以正确地训练模型。

数据也可能嘈杂，充满不想要的信息，可能会误导机器学习模型做出错误的预测。

ML模型的输出是标签。标签的稀疏性也是一个问题，在稀疏标签中，我们知道系统的输入，但是不确定发生了什么输出。在这种情况下，检测模型的特征和标签之间的关系可能极具挑战性。在许多情况下，这可能是劳动密集型的，因为需要人工干预才能将标签与输入相关联。

没有输入到输出的准确映射，模型可能无法学习输入和输出之间的正确关系。

机器学习依赖于输入和输出数据之间的关系来创建可用于进行预测并为未来操作提供建议的概括。当输入数据嘈杂，不完整或错误时，很难理解为什么会发生特定的输出或标签。

2.复杂性和质量之间的权衡

建立健壮的机器学习模型需要大量的计算资源来处理特征和标签。编码复杂的模型需要数据科学家和软件工程师付出巨大的努力。复杂的模型可能需要大量的计算能力才能执行，并且可能需要更长的时间才能得出可用的结果。

这代表了企业的权衡。他们可以选择较快的响应，但结果可能不太准确。或者他们可以接受较慢的响应，但可以从模型中获得更准确的结果。但是，这些妥协并非全是坏消息。是否要以更快的响应获得更高的成本和更准确的模型的决定取决于用例。

例如，向零售购物网站上的购物者提出建议需要实时响应，但结果可能会有些不确定。另一方面，股票交易系统需要更可靠的结果。因此，当不需要实时结果时，使用更多数据并执行更多计算的模型可能会提供更好的结果。

随着机器学习即服务（MLaaS）产品进入市场，权衡的复杂性和质量将受到更多关注。芝加哥大学的研究人员研究了MLaaS的有效性，并发现“如果他们对分类器和特征选择等关键决策有足够的了解，他们可以取得与独立分类器相当的结果”。

机器学习可以改善供应链管理的九种方法

3.数据中的抽样偏差

许多公司使用机器学习算法来协助他们进行招聘。例如，亚马逊发现他们用来协助选择候选人从事业务工作的算法是有偏见的。此外，普林斯顿大学的研究人员发现，欧洲名称受到其他制度的青睐，模仿了一些人类偏见。

这里的问题不是专门的模型。问题在于用于训练模型的数据带有其自身的偏差。但是，当我们知道数据存在偏差时，可以采用一些方法来消除偏差或减少对该数据的加权。

第一个挑战是确定数据中是否存在固有偏差。这意味着要进行一些预处理。尽管可能无法消除数据中的所有偏差，但可以通过注入人类知识来将其影响最小化。

在某些情况下，可能有必要限制数据中的特征数量。例如，省略种族或性别等特征可以帮助限制有偏见的数据对模型结果的影响。

4.不断变化的期望和观念漂移

机器学习模型在特定的上下文中运行。例如，为零售商的推荐引擎提供支持的ML模型在客户查看特定产品时的特定时间运行。但是，客户需求会随着时间而变化，这意味着ML模型可能会偏离其设计要交付的内容。

模型可能会由于多种原因而衰减。将新数据引入模型时，可能会发生漂移。这称为数据漂移。当我们对数据的解释发生变化时，也会发生这种情况。这是概念上的漂移。

为了适应这种漂移，您需要一个模型，该模型可以使用传入的数据不断更新和改进自身。这意味着您需要不断检查模型。

这就需要收集特征和标签并对变化做出反应，以便可以更新和重新训练模型。虽然再培训的某些方面可以自动进行，但仍需要一些人为干预。必须意识到，机器学习工具的部署不是一次性的活动。

机器学习工具需要定期检查和更新，以保持相关性并继续交付价值。

5.监控与维护

创建模型很容易。建立模型可以是自动的。但是，维护和更新模型需要计划和资源。

机器学习模型是更长的管道的一部分，该管道从用于训练模型的功能开始。然后是模型本身，它是可能需要修改和更新的软件。该模型需要标签，以便模型可以识别和使用输入结果。并且模型与系统中的最终信号之间可能会断开连接。

在许多情况下，如果交付了意外结果，则不是机器学习崩溃了，而是链中的其他部分。例如，推荐引擎可能已经向客户提供了产品，但是有时销售系统和推荐之间的联系可能会断开，并且需要花费时间才能找到错误。在这种情况下，很难告诉模型建议是否成功。对此类问题进行故障排除可能会非常费力。

机器学习为企业带来了巨大的好处。预测未来结果以预测和影响客户行为以及支持业务运营的能力非常强大。但是，ML也给企业带来了挑战。通过认识到这些挑战并制定应对策略，公司可以确保他们准备好并有能力应对这些挑战，并充分利用机器学习技术。
https://edu.cda.cn/

跟着紫枫学姐学CDA

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的五个实际问题及其业务影响

如今，企业正在处理大量数据，并且其到达速度比以往任何时候都要快。同时，竞争格局正在迅速变化，因此能够快速做出决策至关重要。正如杰森·詹宁斯（Jason Jennings）和劳伦斯·霍顿（Laurence Haughton）所说的那样：“不是大吃小钱，而是快吃慢食”。业务成功来自于使用最佳信息做出快速决策。机器学习（ML）正在推动这一发展。无论企业是试图向客户提出建议，改进其制造流程还是预期市场变化，ML都可以通过处理大量数据来提供帮助，从而在公司寻求竞争优势时更好地为其提供支持。但是，尽管机器学习提
复制链接

扫一扫