读数据自助服务实践指南：数据开放与洞察提效12数据转换服务-CSDN博客

本文链接：https://blog.csdn.net/lyingSeven/article/details/147448381

1. 数据转换服务

1.1. 传统上业务逻辑通常遵循提取-转换-加载（ETL）或提取-加载-转换（ELT）的模式

1.2. 痛点

1.2.1. 数据用户是业务逻辑方面的专家，但是需要工程支持来大规模实现逻辑
- 1.2.1.1. 随着数据的指数级增长，需要分布式编程模型才能以可靠和高性能的方式实现逻辑
1.2.2. 构建实时业务逻辑转换器的需求越来越大
- 1.2.2.1. 数据用户并不是演进编程模型的专家，尤其是在实时洞察方面
1.2.3. 在生产中运行转换需要持续的支持来跟踪可用性、质量、数据源的变更管理和处理逻辑
- 1.2.3.1. 转换逻辑不是从零开始构建的，而是作为现有逻辑的变体

1.3. 理想情况下，数据转换服务允许用户指定业务逻辑，且不需要具体的实现细节

1.4. 该服务支持批处理和实时处理，并且实现了对可用性、质量和变更管理的监控

1.5. 除了减少构建转换逻辑所需的时间外，该服务还减少了以高性能方式在生产中执行的时间，故可以在生产中大规模运行

1.6. 在从原始数据中提取洞察的过程中，需要根据具有业务领域专业知识的数据用户定义的业务逻辑对数据进行转换

2.1. 转换服务可以帮助数据用户完成与数据报告、用户故事、模型生成等相关的任务

2.2. 转换逻辑是由数据用户在解决问题的上下文中编写的，该逻辑通常随业务定义的变化而演变

2.3. 生产仪表盘和机器学习管道

2.4. 数据驱动的用户故事

3.1. 包括实现、执行和操作业务逻辑转换的时间

3.2. 转换实现

3.3. 转换执行

3.4. 转换操作

4.1. 根据数据用户的技能、用例类型、构建数据管道的现有过程，转换服务的需求有所不同

4.2. 当前状态调研问卷

4.2.1. 实现转换逻辑的当前状态
- 4.2.1.1. 实现转换逻辑的当前状态
- 4.2.1.2. 列出了数据湖中正在使用的数据格式
4.2.2. 执行转换的当前状态
- 4.2.2.1. 关键指标包括需要实时转换的用例数量（而不是传统的、面向批处理的转换）、要读写的数据存储、现有的处理引擎、现有的编程模型以及平均并发请求数
4.2.3. 操作转换的当前状态
- 4.2.3.1. 关键指标包括检测时间、生产问题的调试时间、SLA违规事件的数量以及与转换正确性相关的问题

4.3. 功能性需求

4.3.1. 自动转换代码生成
- 4.3.1.1. 数据用户需要明确转换的业务逻辑，无须担心实现的代码细节
4.3.2. 批处理和流式处理的执行
- 4.3.2.1. 根据用例的需求，允许以批处理或流式方式运行转换逻辑
- 4.3.2.2. 执行以高性能的方式大规模运行
4.3.3. 增量处理
- 4.3.3.1. 能够记录历史调用中处理过的数据，并对新的增量数据应用处理
4.3.4. 自动回填处理
- 4.3.4.1. 根据逻辑更改，自动重新计算度量
4.3.5. 监控可用性和质量问题
- 4.3.5.1. 监控可用性、质量和变更管理