使用AWS Glue与AWS Kinesis构建的流式ETL作业(一)——数据实时采集

本文介绍了使用AWS Glue和AWS Kinesis构建的流式ETL作业,用于实时数据采集。通过AWS CloudWatch筛选数据,创建Kinesis Data Stream,结合IAM角色权限设置,实现数据在Kinesis中的验证和处理。
摘要由CSDN通过智能技术生成

1 数据采集准备工作

1.1 研究的背景

更高效的从项目的数据集中提取有意义的数据,并进行统计分析。

1.2 使用Glue构建流式ETL的原因

AWS Glue中的流式ETL是基于Apache Spark的结构化流引擎。该引擎提供一种高容错、可扩展且易于实现的方法,能够实现端到端的流处理。

1.3 无服务器流式ETL架构

在此流式ETL架构中,将使用AWS Lambda模拟创建日志和创建AWS CloudWatch指标,并将其以流的形式发布至AWS Kinesis Data Streams中。我们还将在AWS Glue中创建一项流式ETL作业,该作业以微批次(间隔性批次处理)的形式获取连续生成的stream数据,并对数据进行转换、聚合,最后将结果传递至接收器。开发人员利用这部分结果生成可视化图表或在下游流程中继续使用。

1.4 架构

在这里插入图片描述

1.5 AWS Kinesis Data Stream创建

我们使用AWS Kinesis Data Stream来实时捕获数据,它可以从数十万个数据源提取并存储数据流,其中包括:

  • 日志和事件数据采集(如AWS CloudWatch)
  • 设备数据捕获
  • 移动数据采集
  • 游戏数据源

此案例中,我们将从CloudWatch中进行数据采集

步骤 图例
1、入口 在这里插入图片描述
2、创建(按需模式无需手动预置和扩展数据流) 在这里插入图片描述

1.6 AWS CloudWatch数据筛选

前置条件:已准备好用来进行数据采集的AWS CloudWatch
我们将会在某个AWS CloudWatch日志组中创建日志筛选条件

</
步骤 图例
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值