AWS Glue 是一项完全托管的 ETL(提取、转换、加载)服务,与考试相关,尤其是在数据集成、处理和分析方面。
1.数据集成和 ETL(提取、转换、加载)
- AWS Glue 主要用于构建 ETL 管道以准备数据以进行分析。作为解决方案架构师,您需要知道如何设计涉及集成和转换数据的解决方案,而 AWS Glue 是该领域的关键服务。
- 使用案例 包括:
- 在不同数据存储之间移动数据(例如,从 S3 移动到 Redshift,或从 DynamoDB 移动到 S3)。
- 下游分析的数据清理、转换和准备。
- 组件:AWS Glue 包含 ETL 作业、爬虫和数据目录等元素。ETL 作业负责数据的提取、转换和加载;爬虫会探索数据源,填充数据目录;数据目录则存储元数据。
- 自动化 ETL:它通过提供预构建的函数、通往各类数据源的连接器以及托管式执行环境,简化了 ETL 流程。这减少了常规数据管道的手动编码工作。
相关主题: - 数据存储和管理解决方案(例如 S3、Redshift、RDS)。
- 集成数据处理服务。
2.数据湖和分析
- AWS Glue 在数据湖架构中发挥着至关重要的作用。它可以对存储在 Amazon S3 中的原始数据进行编目,并将其转换为结构化格式,以供 Amazon Athena 和 Amazon Redshif