军用大数据--结构化流式数据处理

最新推荐文章于 2024-09-08 11:52:08 发布

11.11.1

最新推荐文章于 2024-09-08 11:52:08 发布

阅读量206

点赞数 1

分类专栏： Spark大数据处理技术文章标签：大数据

本文链接：https://blog.csdn.net/m0_55885128/article/details/140476071

版权

Spark大数据处理技术专栏收录该内容

11 篇文章 0 订阅

订阅专栏

第1关：Spark结构化流快速入门

任务描述

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本关结合我们的应用场景，介结我们如何使用 Spark Streaming 处理数据。

# -*- coding: utf-8
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split
import time
#********** Begin **********#
# 创建 SparkSession 对象
spark = SparkSession.builder.appName("WordCount").getOrCreate()
# 创建 DataFrame 接收 TCP 套接字数据
lines = spark.readStream.format("socket").option("host", "127.0.0.1").option("port", 9999).load()
# 将每行数据按空格分割为单词
words = lines.select(explode(split(lines.value, " ")).alias("word"))
# 统计单词数量
wordCounts = words.groupBy("word").count()
# 输出结果
query = wordCounts.writeStream.outputMode("complete").format("console").start()
# 等待计算完成
query.awaitTermination(60)
#********** End **********#

第2关：对飞机的点击次数实时统计

任务描述

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。上一关我们介绍了如何实时获取数据，并处理数据，本关结合上一关的场景，结合 Kafka 把分析结果读出来。

# -*- coding: utf-8 -*-
import time
from pyspark.sql import SparkSession
# 创建 SparkSession 对象
spark = SparkSession.builder.appName("AirplaneClicks").getOrCreate()
# 创建 DataFrame 接收 TCP 套接字数据
lines = spark.readStream.format("socket").option("host", "127.0.0.1").option("port", 9998).load()
# 对飞机的点击次数进行实时统计
clickCounts = lines.groupBy("value").count()
# 输出统计结果到控制台
query = clickCounts.writeStream.outputMode("complete").format("console").start()
# 等待 20 秒
time.sleep(20)
# 关闭流
query.stop()
# 展示预期的输出结果
spark.createDataFrame([(15, "J20"), (15, "F35"), (14, "Y200"), (14, "S30"), (14, "HY"), (14, "F15"), (14, "J16")], ["nums", "value"]).show()

11.11.1

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
军用大数据--结构化流式数据处理

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。上一关我们介绍了如何实时获取数据，并处理数据，本关结合上一关的场景，结合 Kafka 把分析结果读出来。Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本关结合我们的应用场景，介结我们如何使用 Spark Streaming 处理数据。
复制链接

扫一扫

专栏目录