Flink 实践教程：进阶（4）：TOP-N

最新推荐文章于 2025-05-12 10:48:32 发布

腾讯云大数据

最新推荐文章于 2025-05-12 10:48:32 发布

阅读量1.7k

点赞数

文章标签： flink big data 大数据

本文链接：https://blog.csdn.net/cloudbigdata/article/details/122076893

版权

作者：腾讯云流计算 Oceanus 团队

流计算 Oceanus 简介

流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。

本文将会介绍如何使用 Flink 实现常见的 TopN 统计需求。首先使用 Python 脚本模拟生成商品购买数据（每秒钟发送一条）并发送到 CKafka，随后在 Oceanus 平台创建 Flink SQL 作业实时读取 CKafka 中的商品数据，经过滚动窗口（基于事件时间）统计每分钟内商品购买种类的前三名（Top3），最后将结果存储于 PostgreSQL。

操作视频

前置准备

创建流计算 Oceanus 集群

进入 Oceanus 控制台 [1]，点击左侧【集群管理】，点击左上方【创建集群】，具体可参考 Oceanus 官方文档 创建独享集群 [2]。

创建消息队列 CKafka

进入 CKafka 控制台 [3]，点击左上角【新建】，创建 CKafka 实例，具体可参考 CKafka 创建实例 [4]。随后点击进入实例，单击【topic 管理】>【新建】，即可完成 Topic 的创建，具体可参考 CKafka 创建 Topic [5]。

数据准备

本示例使用 Python 脚本向 Topic 发送模拟数据，前提条件需要网络互通。这里我们选择的是与 CKafka 同 VPC 的 CVM 进入，并且安装 Python 环境。如若网络不通，可在 CKafka 实例里面【基本信息】>【接入方式】>【添加路由策略】>【路由类型】里面选择 VPC 网络 或 公网域名接入 的方式打通网络，具体可参考 CKafka 官网 入门流程指引 [6]。

#!/usr/bin/python3
# 首次使用该脚本，需 "pip3 install kafka" 安装kafka模块
import json
import random
import time
from kafka import KafkaProducer

broker_lists = ['10.0.0.29:9092']
kafka_topic_oceanus = 'oceanus_advanced4_input'

producer = KafkaProducer(bootstrap_servers=broker_lists,
                         value_serializer=lambda m: json.dumps(m).encode('ascii'))

def send_data(topic):
    user_id = random.randint(1,50)
    item_id = random.randint(1,1000)
    category_id = random.randint(1,20)
    user_behaviors