spark
十二呀呀呀
这个作者很懒,什么都没留下…
展开
-
spark rdd解析--rdd计算流程
RDDrdd是spark的核心数据结构,所有数据的计算操作都是基于此。直观上,RDD可理解为下图所示结构,即RDD包含多个Partition(分区),每个Partition代表一部分数据并位于一个计算节点。partition是一个逻辑概念,准确说partition是不包含数据的,真正持有数据的是iterable接口对象,用来计算的时候遍历数据。RDD本质上是Spark中的一个抽象类,所有子RDD(HadoopRDD、MapPartitionRDD、JdbcRDD等)都要继承并实现其中的方法。ab转载 2020-11-26 11:48:48 · 1059 阅读 · 0 评论 -
spark学习Day01
1、shuffle过程的数据会写磁盘,因为数据洗牌重组如果发往某一个节点的partition数据过多,就会造成OOM,当然如果写的cipa磁盘的小文件过多,太多的io会影响效率。2、每个stage的task数量由最后一个rdd的partition数量决定3、1:n关系一个app:多个job(job的个数由一个driver(main)中的action算子决定)一个job:多个stag...原创 2020-11-13 18:19:43 · 66 阅读 · 0 评论