德勤全球(Deloitte Global) 预测 ,大中型企业将在2018年增加对机器学习的使用,使2017年正在实施的实施和试点项目数量增加一倍。据德勤(Deloitte)称,到2020年,这一数字可能会再增加一倍。
机器学习显然在各种规模和所有行业的公司中正在兴起,并且依靠数据来学习。 训练机器学习模型需要成千上万个数据点,这些数据点需要标记和清理。 培训数据使应用变得智能,并向他们传授生活经验,经验,观点和规则,以帮助他们了解如何应对不同情况。 人工智能应用程序的开发人员真正想要做的是模拟使人们毕生累积的经验和知识。
许多公司在开发AI解决方案时面临的挑战是获取所有必需的训练数据以构建智能算法。 尽管公司在内部维护不同数据库和文件中的数据,但对于公司来说,不可能快速拥有所需的数据量。 只有几年前才开始存储数据的精通技术,有远见的组织才可以尝试。
结果,出现了一项新业务,该业务本质上是在模仿模拟真实交易的特征的合成数据(实际上是假数据)出售。 吹捧合成数据好处的公司声称,仅使用一小部分纯数据就可以开发有效的算法,而其余的则是合成创建的。 他们声称,这种方法可以大大降低成本并节省时间。 但是,它能满足这些要求吗?
综合数据:买家要当心
当您没有足够的真实数据时,只需对其进行弥补。 似乎是一个简单的答案,对不对? 例如,如果我正在训练机器学习应用程序以检测建筑工地上的起重机数量,而我仅举20个起重机的示例,则可以通过更改某些起重机的颜色,其他起重机的角度和它们的大小,以便训练算法来识别数百台起重机。 尽管这看起来很容易且无害,但实际上,事情并不是那么容易。 机器学习应用程序的质量与训练它的数据质量成正比。
数据需要在现实世界中准确有效地工作。 合成数据的用户必须采取巨大的信念,它将训练机器学习应用程序在现实世界中运行,并且解决了该应用程序遇到的每种情况。 不幸的是,现实世界并非如此。 总是出现新的情况,没人能真正准确地预测。 此外,数据中还有一些看不见的模式,您无法模仿。
然而,尽管以传统方式累积足够的训练数据可能要花费数月或数年,但综合数据却要在数周或数月内得到发展。 对于希望快速部署机器学习应用程序并立即开始实现业务收益的公司而言,这是一个有吸引力的选择。 在某些情况下,需要快速识别许多图像以消除手动的,繁琐的过程,也许没有经过严格训练的算法也可以—也许提供30%的精度就足够了。
但是,对于关键任务或生命至关重要的情况,算法的错误决策可能导致灾难甚至死亡? 以一个可以识别X射线异常的医疗保健应用为例。 或者,使用合成训练数据运行的自动驾驶汽车。 由于该应用程序仅根据所学知识进行培训,如果从不提供告诉其如何对现实世界的可能性(如交通信号灯破裂)做出反应的数据,该怎么办?
您如何确保在机器学习应用程序中获得高质量的数据?
由于合成数据的使用量显然正在上升,因此许多AI软件开发人员,见解即服务提供商和AI供应商正在使用它来更轻松地启动AI应用程序并运行并解决问题。 但是,在与这些公司合作时,您应该提出一些关键问题,以确保您获得优质的机器学习解决方案。
您了解我的行业和手头的业务挑战吗?
与开发您的机器学习算法的公司合作时,重要的是要了解您的行业面临的特定挑战和业务的关键性质。 在汇总相关数据并构建AI解决方案之前,公司需要对业务问题有深入的了解。
您如何汇总数据?
对您来说,了解提供者如何获取可能需要的数据也很重要。 直接询问它是否使用合成数据,如果使用,则使用合成数据训练算法的百分比,以及纯数据占多少。 基于此,确定您的应用程序是否能够承受偶尔犯下的错误。
您使用什么性能指标来评估解决方案?
您应该了解他们如何评估解决方案的质量。 询问他们使用什么测量工具来查看算法在实际情况下的工作方式。 此外,您应该确定他们对新数据重新训练算法的频率。
也许最重要的是,您需要评估使用合成数据的好处是否大于风险。 往往会试图以最简单的方法获得最快的结果,但有时即使路途较长,正确无误也是值得的。