Spark Streaming ：基本工作原理及hdfs文件越来越大问题

最新推荐文章于 2023-08-20 11:39:10 发布

我是丰儿你是沙

最新推荐文章于 2023-08-20 11:39:10 发布

阅读量469

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_43147136/article/details/83053836

版权

Spark 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

一、 Spark Streaming简介

Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window。处理后的数据可以被保存到文件系统、数据库、Dashboard等存储中。

二、Spark Streaming基本工作原理

Spark Streaming内部的基本工作原理如下：接收实时输入数据流，然后将数据拆分成多个batch，比如每收集1秒的数据封装为一个batch，然后将每个batch交给Spark的计算引擎进行处理，最后会生产出一个结果数据流，其中的数据，也是由一个一个的batch所组成的。

三、DStream（一）

Spark Streaming提供了一种高级的抽象，叫做DStream，英文全称为Discretized Stream，中文翻译为“离散流”，它代表了一个持续不断的数据流。DStream可以通过输入数据源来创建，比如Kafka、Flume和Kinesis；也可以通过对其他DStream应用高阶函数来创建，比如map、reduce、join、window。

DStream的内部，其实一系列持续不断产生的RDD。RDD是Spark Core的核心抽象，即，不可变的，分布式的数据集。DStream中的每个RDD都包含了一个时间段内的数据。

四、 DStream（二）

对DStream应用的算子，比如map，其实在底层会被翻译为对DStream中每个RDD的操作。比如对一个DStream执行一个map操作，会产生一个新的DStream。但是，在底层，其实其原理为，对输入DStream中每个时间段的RDD，都应用一遍map操作，然后生成的新的RDD，即作为新的DStream中的那个时间段的一个RDD。底层的RDD的transformation操作，其实，还是由Spark Core的计算引擎来实现的。Spark Streaming对Spark Core进行了一层封装，隐藏了细节，然后对开发人员提供了方便易用的高层次的API。

五、工作原理图：

六、Spark Streaming与Storm的对比

七、运行spark作业，hdfs文件越来越大问题

1、我们在运行spark作业的时候，发现hdfs中的数据越来越多，经查看是我们spark-history文件目录下的东西，这个时候就是我们在配置的时候，没有配置spark-history文件过段时间自动删除，我们应该在spark-default.conf中加入以下参数。
2、spark.history.fs.cleaner.enabled 默认为false
3、这个参数指定history-server的日志是否定时清除，true为定时清除，false为不清除。这个值一定设置成true啊，不然日志文件会越来越大。
4、spark.history.fs.cleaner.interval 默认值为1d
5、这个参数指定history-server的日志检查间隔，默认每一天会检查一下日志文件
6、spark.history.fs.cleaner.maxAge 默认值为7d
7、这个参数指定history-server日志生命周期，当检查到某个日志文件的生命周期为7d时，则会删除该日志文件

我是丰儿你是沙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming ：基本工作原理及hdfs文件越来越大问题

一、 Spark Streaming简介Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window...
复制链接

扫一扫