AWS Glue 是一项完全托管的 ETL(提取、转换和加载)服务,可以轻松高效地对数据进行分类、清理和扩充,并在各种数据存储和数据流之间可靠地移动数据。
本文将讨论一种RDS数据迁移方案,即借助Glue将Aurora for MySQL中的表进行全量以及定时执行增量的方式迁移到AWS RedShift数据仓库中进行数据分析。
在开始之前,我们先来了解以下Glue中的常用组件都有哪些。Crawler:连接到数据存储(源或目标),通过分类器不断更新数据架构,然后在 AWS Glue Data Catalog 中创建元数据表。
AWS Glue Data Catalog:AWS Glue 中的持久元数据存储。它包含表定义、作业定义以及其他用于管理您的 AWS Glue 环境的控制信息。
Data Stores、 Data Source、 Data Target:数据存储是持久存储数据的存储库。数据源是用作进程或转换输入的数据存储。数据目标是进程或转换写入的数据存储。
Job:执行 ETL 工作所需的业务逻辑。
Trigger:启动 ETL 任务。可以根据计划时间或事件来定义触发器。