各行各业的公司越来越关注收集数据,并寻找创新的方法以获得宝贵的见解。企业组织愿意投入大量的时间和资金来实现这一目标。
据IDC公司声称,数据和分析软件以及云服务市场在2021年达到了900亿美元,随着企业继续投入于人工智能和机器学习以及现代数据项目,预计到2026年将增加一倍以上。
然而,尽管投入了大量资金,数据项目获得的结果却常常不尽人意。最近,麦肯锡对前沿的主要分析项目进行了一项调查,结果发现企业将80%的时间用于数据准备之类的重复性任务,而这类任务的增值效果非常有限。此外,麦肯锡发现只有10%的公司认为已经控制了这个问题。
那么,为什么尽管加大了投入和关注力度,数据项目的失败率还是如此之高?
许多变化因素会影响项目的成功。常被提到的因素包括项目复杂性和人才储备有限。数据科学家、云架构师和数据工程师在全球范围内供不应求。企业也认识到,许多数据项目之所以失败,是由于很难在生产环境中让数据项目大规模运作起来。
这导致DataOps这种新框架应运而生,以克服常见的挑战。DataOps将敏捷工程和DevOps最佳实践运用于数据管理领域,帮助企业组织迅速将新的见解转化为完全可操作的生产交付成果,从而从数据中释放业务价值。DataOps工具和方法可以帮助你充分利用数据投入。但是如果你想确保DataOps取得成功,必须能够对数据进行操作。
数据编排方面的挑战
大多数数据管道工作流非常复杂,牵涉许多不同的应用程序、数据源和基础设施技术,需要协同工作才能成功。虽然目标是在生产环境中自动化处理这些流程,但现实情况是,如果没有强大的工作流编排平台,在企业环境下实现这些项目可能会非常昂贵,常常需要花费大量的时间处理手动工作。
数据工作流编排项目有四个关键阶段:
摄取包括从传统数据源收集数据,比如企业资源规划(ERP)和客户资源管理(CRM)解决方案、财务系统及其他许多记录系统,并从现代数据源收集数据,比如众多设备、物联网传感器和社交媒体。
存储增加了复杂性,这归因于作为数据管道一部分的许多不同工具和技术。存储数据的位置和方式在很大程度上取决于持久性、数据集的相对价值、分析模型的刷新率以及将数据转移到处理系统的速度。
处理也面临许多同样的挑战。需要多少纯粹的处理?它是恒定的还是变量?它是计划的、事件驱动的还是临时的?如何使成本最小化?这样的例子不胜枚举。
提供见解需要将数据输出转移到分析系统。这一层也很复杂,越来越多的工具成了数据管道中的最后一英里。
随着新的数据和云技术不断引入,公司不断重新评估其技术堆栈。这种不断的创新带来了压力和变化,因为公司需要轻松地采用新技术,并在生产环境中扩展规模。最终,如果新的数据分析服务没有在生产环境中大规模运用,公司无法获得宝贵的见解或实现价值。
实现规模化生产
成功地在生产环境中大规模运行关键业务工作流不是偶然出现的。合适的工作流编排平台可以帮助你简化数据管道,并获得所需的宝贵见解。
考虑到这一点,以下是在工作流编排平台中需要物色的八项基本功能:
1. 支持异构工作流:公司在迅速向云迁移;在可预见的未来,工作流将横跨高度复杂的混合环境。对于许多公司来说,这将包括支持跨数据中心和多个私有云及/或公共云的大型机和分布式系统。如果你的编排平台无法处理应用程序和底层基础设施的多样性,你将拥有一个高度分散的自动化策略,许多自动化孤岛需要繁琐的自定义集成来处理跨平台的工作流依赖关系。
2. 服务级别协议(SLA)管理:从预测风险的机器学习模型到财务结算和支付结算,业务工作流都有相应的SLA,这些SLA有时由监管机构设定的指导方针加以管理。你的编排平台必须能够理解并通知你复杂工作流中的任务失败和延迟,它需要能够将问题与更广泛的业务影响结合起来。
3. 错误处理和通知:在生产环境中运行时,即使设计再好的工作流也会出现失败和延迟。通知相应的团队至关重要,这样可以避免仅仅为了搞清楚谁需要解决问题而进行长时间的作战室讨论。你的编排平台必须在合适的时间自动向合适的团队发送通知。
4. 自我修复和补救:当团队响应业务工作流中的作业失败时,他们会采取纠正措施,比如重新启动作业、删除文件或者清空缓存或临时表。你的编排平台应该使自动化工程师能够配置这类操作,以便下次出现同样的问题时自动执行。
5. 端到端可见性:工作流跨混合技术堆栈执行相互连接的业务流程。你的编排平台应该能够清楚地显示工作流的逻辑顺序。这对于帮助你理解应用程序和它们支持的业务流程之间的关系极为重要。这对于变更管理也很重要。进行变更时,需要查看流程的上下游发生了什么。
6. 针对多个用户角色的自助服务用户体验:工作流编排是一项集体工作,涉及许多利益相关者,比如数据团队、开发人员、运营和业务流程所有者等。对于如何与编排工具交互,每个团队都有不同的用例和偏好。这意味着你的编排平台必须为每个团队提供合适的用户界面和用户体验,以便他们能够得益于技术。
7. 生产标准:在生产环境中运行工作流需要遵守标准,这意味着使用正确的命名约定和错误处理模式等。你的编排平台应该有一种机制,提供一种非常简单的方式来定义这样的标准,并在用户构建工作流时引导他们使用适当的标准。
8. 支持DevOps实践:随着公司企业采用诸多DevOps实践,比如持续集成和持续部署(CI/CD)管道、工作流开发、修改,甚至工作流的基础设施部署,你的编排平台应该能够适应现代发布实践。
组织对数据的需求在上升,丝毫没有减弱的迹象,这意味着能够存储、处理和操作数据对任何组织的成功都至关重要。与强大的编排功能相结合的DataOps实践可以帮助企业编排数据管道、简化数据交付过程,并改进业务结果。