“企业机器学习需要从数据工程和数据平台的角度看待大局[...],”贾斯汀·诺曼(Justin Norman)在今年巴塞罗那的DataWorks峰会上关于机器学习模型的部署的演讲中说。
实际上,工业机器学习系统是庞大数据基础架构的一部分,这使得端到端ML工作流变得特别复杂。当我们追求最好的机器学习算法时,与现实世界机器学习系统的开发,部署和维护相关的挑战不容忽视。
机器学习并不一定要取代人类的决策,它主要是关于帮助人们做出复杂的基于判断的决策。
我参加的演讲是Cloudera的专家Justin Norman和Sagar Kewalramani进行的“ 机器学习模型部署:实施战略”。他们就端到端ML工作流遇到的挑战作了演讲,重点介绍了将机器学习交付到生产环境。
需求的AI金字塔
越来越多的企业使用机器学习和AI来改善他们的服务并在竞争中领先。不幸的是,许多企业在没有适当的数据平台的情况下进行了AI转换,也没有对部署ML模型的理解。首先应满足几个大数据和数据科学技术需求:
- 大数据基础架构,用于在通常由数据工程师处理的系统的不同部分之间收集,提取,存储,清理和移动数据
- 分析策略,用于探索,可视化,转换和预处理数据为有用的ML输入变量
- 一个框架,用于试验算法,对其进行协作并在跟踪所有模型的参数,准确性和性能的同时进行部署
- 用最简单的数据科学算法建立基准
除此之外,您还需要牢记ML平台的一些重要特征:
- 与业务流程的深度集成
- 连续交付(CI / CD像任何经典代码一样
- 闭环反馈
在演示中,这些需求用金字塔表示,类似于马斯洛的需求层次结构。上面列表中的点被视为金字塔的级别,从金字塔的第一个点开始。这个概念,也称为“需求的AI层次结构”,有助于理解以下要点:
没有用于计算(食物,水,温暖)的基本基础设施,就没有人工智能(与自我实现相对应)。在成功使用机器学习算法之前,您必须能够对过去进行推理并对未来有基本的了解。如果所使用的数据集被误解且未准备好,您将无法期望神经网络会产生出色的结果。
通常,将精力放在基本系统方面可以比调整当前的预测算法更多地提高预测的准确性。例如,与调整ML模型相比,处理输入数据的表示形式可以产生更好的结果。当满足了所有基本工程需求并且准确性不足时,则应该将精力放在更复杂的算法上。