![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
文章平均质量分 60
Zxy_true
低调的抗压的伙夫兄弟
展开
-
RDD调用机制、数据流在RDD中的流通
第一个调用iterator的地方现在知道compute方法的入口方法时iterator方法,即整个调用链是从iterator方法开始的,既然rdd的处理调用是一个向上迭代的过程,那么第一个调用iterator的地方在哪里呢?RDD算子最终会被转化为shuffle map task和result task,并发送到executor执行。而这个地方就在ShuffleMapTask的runTask方法中:进入write方法会在传入的rdd基础上调用RDD的iterator方法。进入该方法:原创 2022-11-16 21:30:02 · 1000 阅读 · 1 评论 -
解决Kettle在Maven仓库中找不到的办法
解决maven中仓库找不到kettle原创 2022-08-17 13:09:01 · 3113 阅读 · 3 评论 -
加入HBase组件后Hive报错问题:MethodNotFoundException
运行HBase组件后,Hive各种报错找不到方法。是jar包冲突导致的。由于在hadoop-env.sh中通过引入hbase下的所有jar包的方式引入的:这种方式配置会引入hbase的lib目录下所有jar包,此时hive会因为jar包冲突而崩溃(hive会加载hadoop的jar包,而hadoop又加载hbase里hadoop的jar包,造成了冲突)。删除hbase下的hadoop的jar包。或者不要用这种方式,通过软链接的方式引入hbase的jar包即可。hbase下的冲突jar包:...原创 2022-06-13 17:33:47 · 368 阅读 · 0 评论 -
Spark中的两种shuffle过程原理
Spark两种Shuffle在spark1.1以前只有hashshuffle,1.1版本引入了sortshuffle,1.2版本以后默认方式改为sort方式,2.0版本以后移除了hashshuffle。HashShuffle执行原理:Map阶段的shuffle是为了下一个stage的task拉取数据作的。每个Map阶段task把要输出的数据按key进行hash根据hash得到的值,生成和下一个stage的task数量相同的磁盘文件并写入。在将数据写入磁盘之前,会先将数据写入内存缓冲中,原创 2022-04-24 11:12:35 · 1285 阅读 · 0 评论