![](https://img-blog.csdnimg.cn/7c6a1e91c2c044c1beff0aa08ea531bb.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData
大数据相关
bigxianzhang
专注于大数据、数据挖掘技术领域
展开
-
hive相关参数设置
队列设置set mapreduce.job.queuename=quename;开启动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;压缩设置set mapred.compress.map.output=true;set hive.exec.compress.output=true;set mapred.output.compress=true;set mapred.o原创 2023-07-26 16:41:35 · 127 阅读 · 0 评论 -
在shell中获取hive的最近分区和判断分区是否存在
【代码】在shell中获取hive的最近分区和判断分区是否存在。原创 2023-07-26 15:33:51 · 350 阅读 · 0 评论 -
Spark join什么时候不触发shuffle?
这样就可以避免shuffle,因为RDD的join实现是由cogroup方法完成的,cogroup中生成了CoGroupedRDD对象,如果它的partitioner和结果CoGroupedRDD的partitioner相同,则该rdd会成为CoGroupedRDD的一个oneToOne窄依赖,否则就是一个shuffle依赖,即宽依赖。, 默认为10MB,表示当join中的一张表的size小于10MB时,spark会自动将其封装为broadcast发送到所有结点,然后进行broadcast join。原创 2023-05-18 20:55:26 · 151 阅读 · 1 评论