推出Amazon Kinesis Data Analytics Studio —— 与流数据快速交互

亚马逊云开发者

于 2021-06-21 20:15:00 发布

阅读量353

点赞数

文章标签：大数据 python java 数据库 mysql

本文链接：https://blog.csdn.net/awschina/article/details/118161207

版权

及时获得见解并对从您的企业和应用程序接收的新信息做出快速反应的最佳方式是分析流数据。这些数据通常必须按顺序和以增量方式按记录或者通过滑动时间窗口进行处理，并且可用于各种分析，包括关联、聚合、筛选和采样。

流数据
https://aws.amazon.com/streaming-data/

为了更轻松地分析流数据，最近，我们非常高兴推出 Amazon Kinesis Data Analytics Studio。

现在，通过 Amazon Kinesis 控制台，您可以选择 Kinesis 数据流，并且只需单击一下即可启动由 Apache Zeppelin 和 Apache Flink 提供支持的 Kinesis Data Analytics Studio 笔记本，以便交互式分析流中的数据。同样，您可以在 Amazon Managed Streaming for Apache Kafka 控制台中选择集群，以启动笔记本来分析 Apache Kafka 流中的数据。您还可以从 Kinesis Data Analytics Studio 控制台中启动笔记本并连接到自定义源。

Amazon Kinesis Data Analytics Studio
https://aws.amazon.com/kinesis/data-analytics/
Amazon Kinesis 控制台
https://console.aws.amazon.com/kinesis/home
Kinesis 数据流
https://aws.amazon.com/kinesis/data-streams/
Apache Zeppelin
https://zeppelin.apache.org/
Apache Flink
https://flink.apache.org/
Amazon Managed Streaming for Apache Kafka
https://aws.amazon.com/msk/
控制台
https://console.aws.amazon.com/msk/home
Apache Kafka
https://kafka.apache.org/
Kinesis Data Analytics Studio 控制台
https://console.aws.amazon.com/kinesisanalytics/home#/list/notebooks

在笔记本中，您可以使用 SQL 查询和 Python 或 Scala 程序与流数据交互并立即获得结果。如果您对结果满意，则只需单击几下，您即可将代码提升至大规模、可靠运行地生产流处理应用程序，无需额外的开发工作。

????想要了解更多亚马逊云科技最新技术发布和实践创新，敬请关注在上海、北京、深圳三地举办的2021亚马逊云科技中国峰会！点击图片报名吧～

对于新项目，我们建议您使用新的 Kinesis Data Analytics Studio，而不是 Kinesis Data Analytics for SQL 应用程序。Kinesis Data Analytics Studio 将易用性和高级分析功能相结合，这使得可以在几分钟内快速构建复杂的流处理应用程序。我们来看看这些步骤的实际操作。

Kinesis Data Analytics for SQL 应用程序
https://docs.aws.amazon.com/kinesisanalytics/latest/dev/what-is.html

使用 Kinesis Data Analytics Studio 分析流数据

我想要更好地了解某些传感器发送给 Kinesis 数据流的数据。

为了模拟此工作负载，我使用此 random_data_generator.py 脚本。您无需知道 Python 即可使用 Kinesis Data Analytics Studio。实际上，我将在以下步骤中使用 SQL。此外，您还可以避免任何编码工作，并使用 Amazon Kinesis 数据生成器用户界面 (UI) 将测试数据发送 Kinesis Data Streams 或 Kinesis Data Firehose。我将使用 Python 脚本来更精细地控制正在发送的数据。

 1import datetime
 2import json
 3import random
 4import boto3
 5
 6STREAM_NAME = "my-input-stream"
 7
 8
 9def get_random_data():
10    current_temperature = round(10 + random.random() * 170, 2)
11    if current_temperature > 160:
12        status = "ERROR"
13    elif current_temperature > 140 or random.randrange(1, 100) > 80:
14        status = random.choice(["WARNING","ERROR"])
15    else:
16        status = "OK"
17    return {
18        'sensor_id': random.randrange(1, 100),
19        'current_temperature': current_temperature,
20        'status': status,
21        'event_time': datetime.datetime.now().isoformat()
22    }
23
24
25def send_data(stream_name, kinesis_client):
26    while True:
27        data = get_random_data()
28        partition_key = str(data["sensor_id"])
29        print(data)
30        kinesis_client.put_record(
31            StreamName=stream_name,
32            Data=json.dumps(data),
33            PartitionKey=partition_key)
34
35
36if __name__ == '__main__':
37    kinesis_client = boto3.client('kinesis')
38    send_data(STREAM_NAME, kinesis_client)
39
40Python

Amazon Kinesis 数据生成器
https://awslabs.github.io/amazon-kinesis-data-generator/
Kinesis Data Streams
https://aws.amazon.com/kinesis/data-streams/
Kinesis Data Firehose
https://aws.amazon.com/kinesis/data-firehose/

此脚本使用 JSON 语法将随机记录发送给我的 Kinesis 数据流。例如：

1{'sensor_id': 77, 'current_temperature': 93.11, 'status': 'OK', 'event_time': '2021-05-19T11:20:00.978328'}
2{'sensor_id': 47, 'current_temperature': 168.32, 'status': 'ERROR', 'event_time': '2021-05-19T11:20:01.110236'}
3{'sensor_id': 9, 'current_temperature': 140.93, 'status': 'WARNING', 'event_time': '2021-05-19T11:20:01.243881'}
4{'sensor_id': 27, 'current_temperature': 130.41, 'status': 'OK', 'event_time': '2021-05-19T11:20:01.371191'}

从 Kinesis 控制台中，我选择了一个 Kinesis 数据流 (my-input-stream) 并从 Process（处理）下拉菜单中选择 Process data in real time（实时处理）。通过这种方式，流被配置为笔记本的源。

Kinesis 控制台
https://awsc-integ.aws.amazon.com/kinesis/home#/streams/list

然后，在下面的对话框中，我将创建一个 Apache Flink – Studio 笔记本。

我为该笔记本输入了一个名称 (my-notebook) 和描述。从我之前选择的 Kinesis 数据流 (my-input-stream) 读取的 Amazon Identity and Access Management (IAM) 权限将会自动附加到笔记本担任的 IAM 角色。

Amazon Identity and Access Management (IAM)
https://aws.amazon.com/iam/

我选择 Create（创建）以打开 Amazon Glue 控制台并创建一个空的数据库。返回 Kinesis Data Analytics Studio 控制台，我刷新了列表并选择新的数据库。它将定义我的源和目标的元数据。从这里，我还可以查看默认的 Studio 笔记本设置。然后，我选择 Create Studio notebook（创建 Studio 笔记本）。

创建笔记本之后，我选择 Run（运行）。

Amazon Glue 控制台
https://console.aws.amazon.com/glue/home

在笔记本运行时，我选择 Open in Apache Zeppelin（在 Apache Zeppelin 中打开）以获取该笔记本的访问权限，并以 SQL、Python 或 Scala 编写代码以与我的流数据交互并实时获得见解。

在笔记本中，我创建了一个新的笔记并将其称之为Sensors.然后，我创建了一个 sensor_data 表，用于描述流中的数据的格式：

 1%flink.ssql
 2
 3CREATE TABLE sensor_data (
 4    sensor_id INTEGER,
 5    current_temperature DOUBLE,
 6    status VARCHAR(6),
 7    event_time TIMESTAMP(3),
 8    WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND
 9)
10PARTITIONED BY (sensor_id)
11WITH (
12    'connector' = 'kinesis',
13    'stream' = 'my-input-stream',
14    'aws.region' = 'us-east-1',
15    'scan.stream.initpos' = 'LATEST',
16    'format' = 'json',
17    'json.timestamp-format.standard' = 'ISO-8601'
18)
19
20SQL

上一个命令中的第一行告知 Apache Zeppelin 为 Apache Flink 解释器提供流 SQL 环境 (%flink.ssql)。此外，我还可以使用批量 SQL 环境 (%flink.ssql)、Python (%flink.pyflink) 或 Scala (%flink) 代码与流数据进行交互。

对于使用过 SQL 和数据库的用户来说，CREATE TABLE 语句的的一部分非常熟悉。将会创建一个表用于存储流中的数据。WATERMARK（水印）选项用于以事件时间衡量进度，如 Apache Flink 文档的“事件时间和水印”部分所述。

Apache Flink 文档的“事件时间和水印”部分
https://ci.apache.org/projects/flink/flink-docs-master/docs/concepts/time/#event-time-and-watermarks

CREATE TABLE语句的第二部分描述用于接收表中的数据（如kinesis 或 kafka）、流名称、 亚马逊云科技区域、流的整体数据格式（如 json 或 csv ）和时间戳使用的语法（在本例中为 ISO 8601）的连接器。我也可以选择处理流的起始位置，我首先将会使用 LATEST 读取最新的数据。

亚马逊云科技区域：
https://aws.amazon.com/about-aws/global-infrastructure/regions_az/#Regions
ISO 8601：
https://en.wikipedia.org/wiki/ISO_8601
起始位置：
https://docs.aws.amazon.com/kinesis/latest/APIReference/API_StartingPosition.html

表就绪后，我将会在创建笔记本时选择的 Amazon Glue 数据目录数据库中找到它：

Amazon Glue 数据目录
https://docs.aws.amazon.com/glue/latest/dg/components-overview.html#data-catalog-intro

现在，我可以在 sensor_data 表中运行 SQL 查询，并使用滑动或翻滚窗口来更好地了解我的传感器中发生的情况。

为了概括了解流中的数据，我将会从简单的SELECT 入手以获取 sensor_data 表中的所有内容：

1%flink.ssql(type=update)
2
3SELECT * FROM sensor_data;
4
5SQL

此时，第一行命令中包含一个参数 ( type=update )，因此当新的数据抵达时 SELECT 的输出（不只一行）将持续更新。

在我的笔记本终端上，我启动 random_data_generator.py 脚本：

1$ python3 random_data_generator.py

首先，我会看到一个包含数据的表。为了更好地了解，我选择了 bar graph（条形图）视图。然后，我按状态对结果进行了分组，以查看其平均 current_temperature，如下所示：

正如我生成这些结果所预期的一样，我会看到不同的平均温度，具体取决于状态（OK（正常）、WARNING（警告）或 ERROR（错误））。温度越高，传感器中出现不正常工作的可能性越大。

我可以使用 SQL 语法显式运行聚合查询。这一次，我想要在 1 分钟的滑动窗口计算结果，并且结果每 10 秒钟更新一次。为此，我在 SELECT 语句的 GROUP BY 部分中使用 HOP 函数。要将时间添加到选择的输出，我使用 HOP_ROWTIME 函数。有关更多信息，请参阅 Apache Flink 文档中的“组窗口聚合工作原理”。

Apache Flink 文档中的“组窗口聚合工作原理”
https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/dev/table/sql/queries/window-agg/#group-window-aggregation

 1%flink.ssql(type=update)
 2
 3SELECT sensor_data.status,
 4       COUNT(*) AS num,
 5       AVG(sensor_data.current_temperature) AS avg_current_temperature,
 6       HOP_ROWTIME(event_time, INTERVAL '10' second, INTERVAL '1' minute) as hop_time
 7  FROM sensor_data
 8 GROUP BY HOP(event_time, INTERVAL '10' second, INTERVAL '1' minute), sensor_data.status;
 9
10SQL

此时，我将查看以表格式显示的结果：

为了将查询结果发送至目标流，我创建了一个表并将该表连接到流。首先，我需要授予笔记本电脑写入流的权限。

在Kinesis Data Analytics Studio 控制台中，我选择了 my-notebook。然后，在 Studio notebooks details（Studio 笔记本详细信息）部分，我选择了 Edit IAM permissions（编辑 IAM 权限）。在这里，我可以配置笔记本使用的源和目标，并且 IAM 角色权限将会自动更新。

Kinesis Data Analytics Studio 控制台
https://awsc-integ.aws.amazon.com/kinesisanalytics/home#/list/notebooks

在 Included destinations in IAM policy（IAM 策略中所含的目标）部分，我选择了目标并选择 my-output-stream。保存更改并等待笔记本更新。现在，我将开始使用目标流。

在笔记本中，我创建了一个连接到 my-output-stream 的 sensor_state 表。

 1%flink.ssql
 2
 3CREATE TABLE sensor_state (
 4    status VARCHAR(6),
 5    num INTEGER,
 6    avg_current_temperature DOUBLE,
 7    hop_time TIMESTAMP(3)
 8)
 9WITH (
10'connector' = 'kinesis',
11'stream' = 'my-output-stream',
12'aws.region' = 'us-east-1',
13'scan.stream.initpos' = 'LATEST',
14'format' = 'json',
15'json.timestamp-format.standard' = 'ISO-8601');
16
17SQL

现在，我将使用此 INSERT INTO 语句来将选择的结果持续插入到 sensor_state 表中。

 1%flink.ssql(type=update)
 2
 3INSERT INTO sensor_state
 4SELECT sensor_data.status,
 5    COUNT(*) AS num,
 6    AVG(sensor_data.current_temperature) AS avg_current_temperature,
 7    HOP_ROWTIME(event_time, INTERVAL '10' second, INTERVAL '1' minute) as hop_time
 8FROM sensor_data
 9GROUP BY HOP(event_time, INTERVAL '10' second, INTERVAL '1' minute), sensor_data.status;
10
11SQL

这些数据还会发送至目标 Kinesis 数据流 ( my-output-stream )，以供其他应用程序使用。例如，目标流中的数据可用于更新实时仪表板，或者在软件更新后监控我的传感器的行为。

我对结果非常满意。我想要将此查询及其输出部署为 Kinesis Analytics 应用程序。

首先，我需要在我的笔记本中创建一个 SensorsApp 笔记，并复制我想要作为应用程序的一部分执行的语句。表已创建完毕，因此，我只需复制上面的 INSERT INTO 语句。

然后，从我的笔记本右上角的菜单中，选择 Build SensorsApp and export to Amazon S3（构建 SensorsApp 并导出到 Amazon S3），然后确认应用程序名称。

导出就绪后，我在相同菜单中选择 Deploy SensorsApp as Kinesis Analytics application（将 SensorsApp 部署为 Kinesis Analytics 应用程序）。之后，我对应用程序的配置进行了微调。我将 parallelism（平行度）设为 1，因为我的输入 Kinesis 数据流中只有一个分片，并没有太多流量。然后，我运行应用程序，无需编写任何代码。

parallelism
https://docs.aws.amazon.com/kinesisanalytics/latest/java/how-scaling.html#how-parallelism

从Kinesis Data Analytics 应用程序控制台中，选择 Open Apache Flink dashboard（打开 Apache Flink 仪表板），以了解有关应用程序的执行情况的更多信息。

Kinesis Data Analytics 应用程序控制台
https://awsc-integ.aws.amazon.com/kinesisanalytics/home#/list/applications

可用性和定价

现在，您可以在正式推出 Kinesis Data Analytics 的所有Amazon区域中使用 Amazon Kinesis Data Analytics Studio。有关更多信息，请参阅 Amazon 区域服务列表。

Amazon 区域服务列表
https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/
Amazon Kinesis Data Analytics Studio
https://aws.amazon.com/kinesis/data-analytics/
Amazon 区域服务列表
https://aws.amazon.com/about-aws/global-infrastructure/regional-product-services/

在Kinesis Data Analytics Studio 中，我们运 Apache Zeppelin 和 Apache Flink 的开源版本，并且我们在上游做出了更改。例如，我们对 Apache Zeppelin 进行了错误修复，并且我们为 Apache Flink 提供了 Amazon连接器，如适用于 Kinesis Data Streams 和 Kinesis Data Firehose 的连接器。此外，我们将与 Apache Flink 社区携手合作，以提高可用性，包括对运行时错误自动进行分类，以了解是用户代码还是应用程序基础架构中存在错误。

Apache Zeppelin
https://zeppelin.apache.org/
Apache Flink
https://flink.apache.org/

使用 Kinesis Data Analytics Studio 时，您需要根据每小时的平均 Kinesis 处理单元 (KPU)（包括正在运行的笔记本使用的 KPU）数量付费。一个 KPU 包含 1 个计算 vCPU、4 GB 内存和关联的网络。您还需要为正在运行的应用程序存储以及持久应用程序存储付费。有关更多信息，请参阅 Kinesis Data Analytics 定价页面。