Spark学习笔记：输入DStream和Receiver详解

最新推荐文章于 2020-04-15 13:03:58 发布

SetsunaMeow

最新推荐文章于 2020-04-15 13:03:58 发布

阅读量432

点赞数

分类专栏： Spark Spark Streaming 文章标签： Spark Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lrxcmwy2/article/details/82729086

版权

Spark 同时被 2 个专栏收录

15 篇文章 3 订阅

订阅专栏

Spark Streaming

10 篇文章 0 订阅

订阅专栏

输入DStream和Receiver详解

输入DStream代表了来自数据源的输入数据流，除了文件数据流之外，所有的输入DStream都会绑定一个Receiver对象，Receiver用于接收数据，然后将数据存储在Spark的内存中，以供后续的操作使用。

SparkStreaming提供的数据源支持

基础数据源：StreamingContext API中直接提供了对这些数据源的支持，比如文件、Socket、Akka Actor等
高级数据源：诸如Kafka、Flume、Kinesis、Twitter等数据源，通过第三方工具类提供支持，这些数据源的使用需要引用其依赖

注意事项

如果要在实时计算应用中并行接收多条数据流，可以创建多个输入DStream，这样就会创建多个Receiver，从而并行地接收多个数据流。这里有一个问题，一个Spark Streaming应用程序的executor是一个长期运行的任务，所以它会独占分配给Spark Streaming应用程序的CPU core，所以只要Spark Streaming运行起来之后，这个节点上的CPU core数就没有办法给其他的应用所使用了，因为会被Receiver所独占
使用本地模式运行程序时，必须使用local[n]，n>=2绝对不能用local和local[1]，因为就会给执行输入DStream的executor分配一个线程，Spark Streaming底层的原理需要至少有两个线程，一个线程分配给Receiver接收数据，另一个线程用来处理接收到的数据。如果线程小于2的话，那么程序只会接收数据，不会处理数据
如果直接将Spark Streaming应用提交到集群上运行，需要保证有足够资源

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SetsunaMeow CSDN认证博客专家 CSDN认证企业博客

码龄8年

58: 原创

39万+: 周排名

72万+: 总排名

15万+: 访问

: 等级

1686: 积分

109: 粉丝

116: 获赞

18: 评论

592: 收藏

私信

关注

热门文章

分类专栏

Oracle 4篇
MySQL
Linux 1篇
Java 1篇
Hadoop 1篇
Mapreduce
Hive 4篇
Hbase 4篇
Sqoop 1篇
Flume 5篇
Scala 4篇
Spark 15篇
Spark Streaming 10篇
Kafka 8篇
码出高效
LeetCode题解
学习笔记 2篇
Python 10篇
工作手记
Dataphin
数据仓库

最新评论

HBase学习笔记：使用BulkLoad特性快速导入海量数据
Thomas2143: 为什么 "仅适合初次数据导入" ?
HBase学习笔记：使用BulkLoad特性快速导入海量数据
daydreameryyyy: 请教一下，这个问题解决了吗
HBase学习笔记：使用BulkLoad特性快速导入海量数据
万万使不得: 你好，我想问一下添加了hbase的lib后，类能找到了，但是报了下面这个错，本地这个类里是有这个方法的，hbase lib下的jar里也有这个方法，不知道哪里出了问题 [code=java] Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.HdfsDataInputStream.getReadStatistics()Lorg/apache/hadoop/hdfs/DFSInputStream$ReadStatistics; at org.apache.hadoop.hbase.io.FSDataInputStreamWrapper.updateInputStreamStatistics(FSDataInputStreamWrapper.java:253) at org.apache.hadoop.hbase.io.FSDataInputStreamWrapper.close(FSDataInputStreamWrapper.java:300) at org.apache.hadoop.hbase.io.hfile.HFile.isHFileFormat(HFile.java:653) at org.apache.hadoop.hbase.io.hfile.HFile.isHFileFormat(HFile.java:634) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.visitBulkHFiles(LoadIncrementalHFiles.java:1071) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.discoverLoadQueue(LoadIncrementalHFiles.java:987) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.prepareHFileQueue(LoadIncrementalHFiles.j [/code]
Kafka学习笔记：Kafka的Topic、Partition和Message
扯淡的工程师: replicas的数量和服务器数量差不多吧，还是我理解错了
HBase学习笔记：使用BulkLoad特性快速导入海量数据
爱吃大盘鸡的小菜鸡: 您好，我不太懂MapReduce，我看到在mapper类里不是只写了一个put吗，但是txt里有两行数据啊，如果txt里有一千行数据呢？每行数据都会运行一次map方法吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。