spark-streaming总结

最新推荐文章于 2024-11-03 10:13:25 发布

CharlesDavid_coder

最新推荐文章于 2024-11-03 10:13:25 发布

阅读量491

点赞数

分类专栏：推荐系统文章标签： spark python 大数据机器学习

本文链接：https://blog.csdn.net/qq_27396609/article/details/112056600

版权

本文深入介绍了Spark Streaming，包括其作为实时计算框架的特点，与Storm的对比，核心组件Streaming Context和DStream，以及编码实践。重点讨论了状态操作，如updateStateByKey和Windows操作，阐述了它们在处理持续累积操作和窗口统计中的应用，并提供了相关代码示例。

摘要由CSDN通过智能技术生成

sparkStreaming总结

文章目录

- sparkStreaming总结

1、sparkStreaming概述

1.1 SparkStreaming是什么

它是一个可扩展，高吞吐具有容错性的流式计算框架

吞吐量：单位时间内成功传输数据的数量

之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务，数据一般都是在固定位置上，通常我们写好一个脚本，每天定时去处理数据，计算，保存数据结果。这类任务通常是T+1(一天一个任务)，对实时性要求不高。

在这里插入图片描述

但在企业中存在很多实时性处理的需求，例如：双十一的京东阿里，通常会做一个实时的数据大屏，显示实时订单。这种情况下，对数据实时性要求较高，仅仅能够容忍到延迟1分钟或几秒钟。

在这里插入图片描述

实时计算框架对比

Storm

流式计算框架
以record为单位处理数据
也支持micro-batch方式（Trident）

Spark

批处理计算框架
以RDD为单位处理数据
支持micro-batch流式处理数据（Spark Streaming）

对比：

吞吐量：Spark Streaming优于Storm
延迟：Spark Streaming差于Storm

1.2 SparkStreaming的组件

Streaming Context
- 一旦一个Context已经启动(调用了Streaming Context的start()),就不能有新的流算子(Dstream)建立或者是添加到context中
- 一旦一个context已经停止,不能重新启动(Streaming Context调用了stop方法之后就不能再次调 start())
- 在JVM(java虚拟机)中, 同一时间只能有一个Streaming Context处于活跃状态, 一个SparkContext创建一个Streaming Context
- 在Streaming Context上调用Stop方法, 也会关闭SparkContext对象, 如果只想仅关闭Streaming Context对象,设置stop()的可选参数为false
- 一个SparkContext对象可以重复利用去创建多个Streaming Context对象(不关闭SparkContext前提下), 但是需要关一个再开下一个
DStream (离散流)
- 代表一个连续的数据流
- 在内部, DStream由一系列连续的RDD组成
- DStreams中的每个RDD都包含确定时间间隔内的数据
- 任何对DStreams的操作都转换成了对DStreams隐含的RDD的操作
- 数据源
  - 基本源
    - TCP/IP Socket
    - FileSystem
  - 高级源
    - Kafka
    - Flume

2、Spark Streaming编码实践

Spark Streaming编码步骤：

1，创建一个StreamingContext
2，从StreamingContext中创建一个数据对象
3，对数据对象进行Transformations操作
4，输出结果
5，开始和停止

利用Spark Streaming实现WordCount

需求：监听某个端口上的网络数据，实时统计出现的不同单词个数。

1，需要安装一个nc工具：sudo yum install -y nc

2，执行指令：nc -lk 9999 -v

import os

SPARK_HOME = '/app/spark-2.4.7'
JAVA_HOME = '/app/jdk1.8.0_271'
PYSPARK_PYTHON = '/root/Envs/aipy36/bin/python3'

os.environ['SPARK_HOME'] = SPARK_HOME
os.environ['JAVA_HOME'] = JAVA_HOME
os.environ['PYSPARK_PYTHON'] = PYSPARK_PYTHON
os.environ['PYSPARK_DIRVER_PYTHON'] = PYSPARK_PYTHON

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == '__main__':
    # 创建spark context
    sc = SparkContext

最低0.47元/天解锁文章