mahatma----spark
圣☞摧枯拉朽
大数据
展开
-
spark shuffle详解
https://www.cnblogs.com/itboys/p/9201750.html原创 2020-11-05 20:15:38 · 108 阅读 · 0 评论 -
RDD、DataFrame、DataSet区别
https://www.cnblogs.com/Transkai/p/11360603.html原创 2020-04-16 21:26:30 · 116 阅读 · 0 评论 -
Spark Streaming 的 Receiver和 Direct模式
1 两种模式的原理和区别Receiver模式1. Receiver模式下的运行架构1)InputDStream: 从流数据源接收的输入数据。2)Receiver:负责接收数据流,并将数据写到本地。3)Streaming Context:代表SparkStreaming,负责Streaming层面的任务调度,生成jobs发送到Spark engine处理。4)Spark ...原创 2020-04-15 13:03:58 · 805 阅读 · 0 评论 -
spark的Accumulator累加器使用及 自定义Accumulator功能
一、spark的累加器Accumulator使用Accumulator时,为了保证准确性,只使用一次action操作。如果多次action操作,会造成累加器值错误。解决方案:将任务之间的血缘依赖关系切断就可以了。什么方法有这种功能呢?cache,persist,调用这个方法的时候会将之前的依赖切除,后续的累加器就不会再被之前的transfrom操作影响到了。二、自定义Accum...原创 2020-04-15 11:08:40 · 476 阅读 · 0 评论
分享