持续集成最佳实践_开发数据集成管道的最佳实践-CSDN博客

持续集成最佳实践

数据集成管道平台将数据从源系统移动到下游目标系统。因为数据管道可以交付关键任务数据并用于重要的业务决策，所以无论您是通过脚本，数据集成和ETL（提取转换和加载）平台，数据准备技术还是实际实施，都必须确保其准确性和性能。实时数据流架构。

在实现数据集成管道时，应在设计阶段初期考虑几种最佳实践，以确保数据处理功能强大且可维护。无论您是否对其进行形式化，这些数据管道中都有一个继承服务级别，因为它们会影响报表是按计划生成还是应用程序为用户提供了最新数据。 IT部门也不断需要进行增强，以支持新的数据需求，处理不断增长的数据量并解决数据质量问题。

[InfoWorld的要点：如何选择正确的数据集成工具 • Cosmos DB如何确保全球云中的数据一致性。 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

如果您在IT领域工作了足够长的时间，那么在数据管道方面，您可能已经看到好事，坏事和丑陋之处。弄清楚为什么将数据管道作业编写为没有文档，日志记录或错误处理的单个数百行数据库存储过程时失败的原因并不容易。因此，在设计新的数据管道时，请考虑一些最佳实践，以避免产生如此丑陋的结果。

将模块化设计原则应用于数据管道

作为数据管道开发人员，您应该考虑管道的体系结构，以便它们对将来的需求灵活，并在出现问题时易于评估。您可以将流水线模块化为构建块，每个块处理一个处理步骤，然后将处理后的数据传递到其他块。来自Informatica，Talend和IBM等供应商的ETL平台提供了可视化的编程范例，可以轻松地将构建块开发为可重用的模块，然后将其应用于多个数据管道。

CharityNavigator.org的全栈开发人员Moustafa Elshaabiny一直在使用IBM DataStage来自动化数据管道。他说：“以模块化的方式构建数据管道并参数化关键环境变量已帮助我们识别和修复快速有效地出现的问题。模块化使解决问题变得更加容易，而参数化则使测试更改和重新运行ETL作业的速度大大提高。”

其他常规软件开发最佳实践也适用于数据管道：

应该在配置文件和其他工具中设置环境变量和其他参数，以便轻松地根据运行时需要配置作业。
基础代码应该进行版本控制，最好是在标准版本控制存储库中。
应该使用CI / CD管道调试用于开发，测试，生产和灾难恢复的单独环境，以自动化代码更改的部署。

验证整个管道中数据的准确性

在块和模块中处理数据以保证强大的管道还不够。数据源可能会更改，并且基础数据可能会在运行时出现质量问题。为确保管道牢固，应在每个块中混合使用日志记录，异常处理和数据验证。

在数据管道中实施数据验证时，应决定如何处理行级数据问题。如何处理失败的数据行取决于数据的性质及其在下游的使用方式。如果下游系统及其用户期望一个干净的，满载的数据集，则可能需要停止管道，直到解决一行或多行数据的问题为止。但是，如果下游使用情况更能容忍增量数据清理工作，则数据管道可以将行级问题作为异常处理，并继续处理具有干净数据的其他行。

许多数据集成技术都具有附加的数据管理功能。这样，您就可以将数据异常路由到知道如何解决问题的指派给数据管理员的人员。然后，这些工具允许固定的数据行重新输入数据管道并继续进行处理。

如果您使用的是数据流体系结构，则可以使用其他选项来处理实时数据时提高数据质量。 DataMatics的执行副总裁兼人工智能和认知科学负责人Sanjeet Banerji建议，“ Spark Streaming等平台中的内置功能提供了机器学习功能，可以创建一组真正的数据清洗模型。”