使用AWS Glue与AWS Kinesis构建的流式ETL作业（一）——数据实时采集

「已注销」

已于 2022-09-09 17:42:39 修改

阅读量1k

点赞数

分类专栏： AWS云文章标签： aws etl 大数据数据仓库

于 2022-09-09 17:25:29 首次发布

本文链接：https://blog.csdn.net/Inplayable/article/details/126785514

版权

本文介绍了使用AWS Glue和AWS Kinesis构建的流式ETL作业，用于实时数据采集。通过AWS CloudWatch筛选数据，创建Kinesis Data Stream，结合IAM角色权限设置，实现数据在Kinesis中的验证和处理。

摘要由CSDN通过智能技术生成

大纲

1 数据采集准备工作

1.1 研究的背景

更高效的从项目的数据集中提取有意义的数据，并进行统计分析。

1.2 使用Glue构建流式ETL的原因

AWS Glue中的流式ETL是基于Apache Spark的结构化流引擎。该引擎提供一种高容错、可扩展且易于实现的方法，能够实现端到端的流处理。

1.3 无服务器流式ETL架构

在此流式ETL架构中，将使用AWS Lambda模拟创建日志和创建AWS CloudWatch指标，并将其以流的形式发布至AWS Kinesis Data Streams中。我们还将在AWS Glue中创建一项流式ETL作业，该作业以微批次（间隔性批次处理）的形式获取连续生成的stream数据，并对数据进行转换、聚合，最后将结果传递至接收器。开发人员利用这部分结果生成可视化图表或在下游流程中继续使用。