spark streaming 里的transform 与foreachRDD

最新推荐文章于 2022-05-22 10:10:02 发布

chunjian8956

最新推荐文章于 2022-05-22 10:10:02 发布

阅读量828

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/u/3230272/blog/870808

版权

spark streaming 里的transform 转换函数里是不能有关于rdd的action操作，有也不会执行，只能使用普通算子，也不能有任何的输出操作，不会执行。

foreachRDD 里可以有关于rdd的action操作，也可以有其他算子操作。

另外ssc.sparkContext 这个是不是序列化的，如果执行了ssc.checkpoint

则该语句会报错AccumulatorBorder.getAccumulator(ssc.sparkContext)

所以如果sparkContext 最好不要作为函数参数传来传去，如果非要传输可以使用当前算子的sparkContext

dcorrect.count().foreachRDD{ x=> x.partitions
AccumulatorBorder.getAccumulator(x.sparkContext).add(x.collect()(0))
print(AccumulatorBorder.getAccumulator(x.sparkContext).value+"=getAccumulator foreachRDD")
}

转载于:https://my.oschina.net/u/3230272/blog/870808

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chunjian8956

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

SparkStreaming构建黑名单以及SparkStreaming整合SparkSQL(transform和foreachRDD)

someInNeed的博客

06-01

460

构建黑名单注：生产环境时将.setMaster("local[2]").setAppName("BlackListList")删掉 val SparkConf=new SparkConf().setMaster("local[2]").setAppName("BlackListList") val ssc=new StreamingContext(SparkConf,Seconds(5)...

大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD

Lansonli（蓝深李）的博客

04-22

920

SparkStreaming实战案例六自定义输出-foreachRDD 需求对上述案例的结果数据输出到控制台外的其他组件,如MySQL/HDFS 注意: foreachRDD函数属于将DStream中结果数据RDD输出的操作，类似transform函数，针对每批次RDD数据操作，但无返回值 DStream.print方法源码底层调用的也是foreachRDD：代码实现 package cn.itcast.streaming import java.sql.{Conne..

参与评论您还未登录，请先登录后发表或查看评论

SparkStreaming中transform和foreachRDD

weixin_48149210的博客

09-01

424

transform //创建SparkStreaming val conf: SparkConf = new SparkConf().setAppName("demo").setMaster("local[*]") val sc = new SparkContext(conf) sc.setLogLevel("WARN") val ssc = new StreamingContext(sc,Seconds(5)) val data: ReceiverInputDSt

sparkStreaming之transform、foreachRDD

feiyuciuxun的博客

12-01

836

transform：每一批次调用一次如下代码介绍的那样，foreachRDD内部最开始一部分是运行在Driver中，可以做一些连接之类的工作 foreachRDD 什么时候用foreachRDD,什么时候用transform？需要有返回时，就用transform。不需要返回时就用foreachRDD 什么时候用 map,什么时候用 foreach？需要返回时用 map, 不需要返...

070 DStream中的transform和foreachRDD函数

weixin_34381666的博客

08-16

668

1.说明　　DStream的API不够满足使用的时候，可以使用这两个函数，将dstream转换为rdd，然后进行操作 2.transform 　　transform：将DStream的操作转换为RDD的操作，调用该api最终只需要返回一个新的RDD即可 3.程序 1 package com.window.it 2 import org.apache.spark.{SparkConf,...

spark俩个重要算子 transform foreachRDD

weixin_43548518的博客

12-18

307

transform foreachRDD 可以做到动态改变广播变量目的

transform和foreachRDD

csncd的博客

05-22

299

transform算子源码： /** * Return a new DStream in which each RDD is generated by applying a function * on each RDD of 'this' DStream. * 返回一个新的 DStream，其中每个 RDD 是通过对 'this' DStream 的每个 RDD 应用一个函数来生成的。 */ def transform[U: ClassTag](transformFunc

《深入理解Spark》之Transform、foreachRDD、updateStateByKey以及reduceByKeyAndWindow

凌夜知惜

01-24

853

package com.lyzx.day32 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} class T1 { /** * Transform Operation * * The tra...

sparkStreaming foreachRDD算子

weixin_43548518的博客

12-11

441

foreachRDD是Dstream的outPutOperator算子 foreachRDD定义： def foreachRDD(foreachFunc : org.apache.spark.api.java.function.VoidFunction[R]) : scala.Unit foreachRDD作用：对Dstream中RDD操作动态改变广播变量值 foreachRDD注意事项： f...

第96讲通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统(数据库)中

qq_21234493的博客

05-15

3714

1：写到外部数据源，表面上看是spark去写，实际上就是jvm去操作。jvm写数据库，spark streaming就可以写数据库。jvm如果能写到Hbase或者Redius中，Spark也能。 2：spark streaming中我们使用Dstream.foreachRDD(),来把Dstream中的数据发送到外部的文件系统中，外部文件系统主要是数据库，Hbase，Redius,数据库比较少量

sparkstreaming foreach foreachRDD foreachPartition

a3125504x的博客

09-07

549

sparkstreaming 常见遍历函数的区别区别foreachforeachRDDforeachPartition官网示例代码示例官网链接区别 foreach 源码 /** Applies a function `f` to all values produced by this iterator. * * @param f the function that is applied for its side-effect to every element. *

大数据10_02_SparkStreaming输入源、foreachRDD、transform、updateStateByKey、reduceByKeyAndWindow

yangshaojun1992的博客

01-18

2604

基本数据源 1.文件流从文件中读取数据 lines = ssc.textFileStream("file:///usr/local/spark/mycode/streaming/logfile") 2.套接字流 Spark Streaming可以通过Socket端口监听并接收数据，然后进行相应处理。 JavaReceiverInputDStream lines = jsc

for_each算法和transform算法的区别

代码黑洞

12-12

270

for_each: 用指定函数依次对指定范围内所有元素进行迭代访问，可对容器的元素进行修改。 transform: 与for_each类似，遍历所有元素，可对容器的元素进行修改。 class PrintElem { public: void operator()(int &e) { m_n++; cout << e << " "; } ...

SparkStreaming之foreachRDD

legotime的博客

07-06

2万+

首先我们来对官网的描述了解一下。 DStream中的foreachRDD是一个非常强大函数，它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据，它们触发的实际操作是DStream转换。所以要掌握它，对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的object（eg:根据TCP协议连接到远程的服务器，我们连接外部数据库需要自己的句柄

SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

mys_35088的博客

07-19

2067

SparkStreaming中foreachRDD算子解析： SparkStreaming是流式实时处理数据，就是将数据流按照定义的时间进行分割（就是“批处理”）。每一个时间段内处理的都是一个RDD。而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据。（官方文档”http://spark.apachecn.org”中的解释） DStream中即...

SparkStreaming（15）：DStream转换为RDD的Transform算子

小蚯蚓的博客

10-20

5919

1.实现功能 DStream中还是缺少某些API的，比如sortByKey之类的。所以使用Transform直接操作DStream中的当前job/批次对应的RDD，来替换DStream的操作（可以直接使用RDD的api），比较方便。 2.代码 package _0809kafka import java.text.SimpleDateFormat import org.apach...

Spark中foreachRDD、foreachPartition和foreach解读