2019 年关于数据科学、机器学习和人工智能的五大预测
总结:以下是我们对 2019 年关于数据科学、机器学习和人工智能的五大预测。
以下是我们对 2019 年的趋势预测
预测 1:数据变得比算法更重要
无论是在深度学习还是在经典机器学习领域,我们已经有 1 年多时间没有取得任何重大突破。有一些渐进的改进,比如,利用时间卷积网络(Temporal Convolutional Nets,简称 TCN)而不是 RNN 来减少 NLP 中的延迟,但是没有重大创新。性能最好的算法都是众所周知的算法,或者利用自动机器学习很容易发现。
随着各个企业踏上数字化转型之旅,拥有更多更好的数据是成功的关键,而我们正处于这样的时期。实际上,这给向不同方向发展的数据相关的解决方案提供了竞争机会。
一方面,获取准确标记的图像或文本训练数据仍然相当昂贵和耗时。像 Figure Eight 这样专注于标记数据的公司正在推广智能成本效益策略,如:主动学习,它让客户决定标记数据和模型准确性之间的最佳权衡。这涉及添加人工标记或机器标记数据,然后重新训练,通过多次迭代以找到最佳权衡。
另一方面是对第三方数据的访问。像 DymstData 这样的服务公司已经进入了该领域,作为数百种附加数据的结算机构。他们还承担着保护敏感 PII 这个任务繁重的角色,其用户能够基于角色以访问在金融和健康服务领域特别重要的敏感信息。
第三个方面是自动跟踪和记录模型中所用的数据源。特别地,当集成来自很多数据源并随着时间而变化的流数据时,了解数据的来源以及如何使用数据,对准确性和合规性都至关重要。Tibco 和其他一些分析平台正在引入这个功能。
围绕数据的服务产品今年今年有望大幅增长。
预测 2:随着人工智能 / 机器学习从分析平台转移到特定于行业或流程的应用程序,一切都将变得更容易。
纵观人工智能 / 机器学习初创企业的世界,就能看出竞争正在转向特定于行业或流程的应用程序。这些应用程序或迷你平台专注于解决行业中特定的业务问题,如市场营销、B2B 销售、医疗保健、金融科技以及其他大约十几个已经明确定义的领域。要想有一个快速地了解,请参考下图(CB Insights 年度人工智能 100 家优胜者)以及他们按行业或流程进行分类的方式。
这些新的应用程序专注于嵌入式人工智能 / 机器学习,因此,用户所在的组织就不需要一大组内部数据科学家的支持,并且可以依赖这些开发人员继续提供更新和改进。
有些人把这称为人工智能 / 机器学习的商品化,但是,把它们称为人工智能 / 机器学习的专业化更准确。
如果你一直从事类似的工作,那么你可能还记得 90 年代后期从再造工程(Reengineering)到 ERP 的转变,现在的情况和当时非常相似。最初,再造工程要求企业用复杂的定制 IT 解决方案来改进流程,因为当时不存在标准解决方案。这迅速促成了大型综合性 ERP 兴起,其中包括甲骨文、PeopleSoft、SAP 和其他一些公司,也为像 CRM 这样的专业应用程序打开了大门。我们的行业目前正在经历同样的变化。
这些新供应商都致力于在他们特定的利基市场提供广泛的解决方案,但是最终会少于大而全的 ERP 规模的平台。看看这些行业分类中开发商的整合浪潮吧。
还要注意在中小型企业中人工智能 / 机器学习采用的加速情况,这些企业不再必须拥有大型数据科学家团队,或者完全依赖定制开发的模型。
预测 3:数据工程师和数据分析师的兴起
这个世界并没有抛弃数据科学家。还远远没有。但是,当缺乏拥有某种技能的人才时,市场会用另外的方式来填补,以减轻由此带来的痛苦。
其中一种方式是通过我们前面讨论过的特定于行业和流程的智能应用程序来解决问题,这些应用程序不需要大量的内部数据科学家。
第二个就是所有主流分析平台正在做的事和快速涌现的数十个自动机器学习(AML)平台。那就是在数据科学中更有效率,也就是说,只需要较少的数据科学家就可以做很多工作。
由于模型的数量没有减少,事实上是在增加,这就把工作负荷转移到了数据工程师身上,他们主要做两件事情。
首先,他们要能够创建数据科学所需的基础设施,如数据湖或 Spark 实例。
其次,他们拿到那些模型并在业务系统中实现它们,同时跟踪准确性并进行模型更新。
有些数据工程师还负责数据操作,以提供干净整洁并经过预处理的数据流。
分析平台的另一个演进是可视化分析和数据可视化工具的增长。这些工具现在大多数和数据科学工具集完全集成到一起,并允许数据分析师和 LOB 经理提取更多价值,甚至指导分析工作。它们不会取代数据科学家。它强化了团队方面正在形成的高级分析。
预测 4:神经晶片:人工智能来到物联网边缘
有两种不同的技术正在同时达到半成熟状态,它们可以解决一个长期存在的问题。这个问题就是延迟问题。
考虑一下这个例子,当你想用移动设备自动把文本或图像中的外文翻译成英语时,你的设备实际上是把这些信号发回到在云上运行的应用程序,翻译工作是在那里进行的,然后把译文发送回你的设备。
谷歌和其他提供即时翻译服务的公司已经从 RNN 转换到称为时间卷积网络的专用 CNN 结构,原因是 RNN 不能很好地适应 MPP,但 CNN 可以。这种转换减少了延迟,但是信号仍然需要完成整个往返。
解决该问题的两种技术中的第 1 种是 5G 网络。你可能知道 5G 速度更快,但其真正的优点是其可以承载的流量密度。这真正打开了让你生活中的一切在互联网上传播的大门。这其中有多少是值得的还有待于观察。
第 2 种解决方案是引入更好的新型神经晶片(又称 spiking neural networks,脉冲神经网络)。我们希望这些全新的神经网络架构可以成为实现人工通用智能(Artificial General Intelligence,简称 AGI)的途径。这还有很长的路要走。但是,主要的芯片制造商和一些初创企业正在发布脉冲神经晶片,专门针对芯片上 CNN 和 RNN 类模型进行了优化(没有信号往返)。其中一些还为了获得极低的能耗进行了优化。
这些功能放在一起,很适合把深度学习转移到真正位于网络边缘的芯片上。借助这些新功能,物联网和其他流数据应用程序有望在今年开始爆发。
预测 5:不同的人工智能框架之间开始交互
现在,文本、语音、图像和视频模型正在成为主流,我们碰到了意想不到的障碍。在一个框架(Caffe2、PyTorch、Apache MXNet、微软 Cognitive Toolkit 和 TensorFlow)上构建的模型无法轻松地移植到不同的框架。我们可以翻译语音,但我们用的是名副其实的巴别塔。
幸运的是,这样的痛点推动了创新。AWS、脸书和微软合作构建了开放式神经网络交换(Open Neural Network Exchange,简称 ONNX),使模型可在不同的框架上互操作。
随着在开发人员、应用程序和设备之间共享的模型的数量变得越来越多,ONNX 正在成为未来一年的关键技术。