大纲
1 数据采集准备工作
1.1 研究的背景
更高效的从项目的数据集中提取有意义的数据,并进行统计分析。
1.2 使用Glue构建流式ETL的原因
AWS Glue中的流式ETL是基于Apache Spark的结构化流引擎。该引擎提供一种高容错、可扩展且易于实现的方法,能够实现端到端的流处理。
1.3 无服务器流式ETL架构
在此流式ETL架构中,将使用AWS Lambda模拟创建日志和创建AWS CloudWatch指标,并将其以流的形式发布至AWS Kinesis Data Streams中。我们还将在AWS Glue中创建一项流式ETL作业,该作业以微批次(间隔性批次处理)的形式获取连续生成的stream数据,并对数据进行转换、聚合,最后将结果传递至接收器。开发人员利用这部分结果生成可视化图表或在下游流程中继续使用。
1.4 架构
1.5 AWS Kinesis Data Stream创建
我们使用AWS Kinesis Data Stream来实时捕获数据,它可以从数十万个数据源提取并存储数据流,其中包括:
- 日志和事件数据采集(如AWS CloudWatch)
- 设备数据捕获
- 移动数据采集
- 游戏数据源
此案例中,我们将从CloudWatch中进行数据采集
步骤 | 图例 |
---|---|
1、入口 | |
2、创建(按需模式无需手动预置和扩展数据流) |
1.6 AWS CloudWatch数据筛选
前置条件:已准备好用来进行数据采集的AWS CloudWatch
我们将会在某个AWS CloudWatch日志组中创建日志筛选条件
步骤 | 图例 | </
---|