面试题汇总

最新推荐文章于 2023-07-13 10:07:30 发布

Ashley_JIANG

最新推荐文章于 2023-07-13 10:07:30 发布

阅读量135

点赞数

分类专栏： spark 大数据 hive

本文链接：https://blog.csdn.net/Jacqueline_JIANG/article/details/112638048

版权

9 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

hive中join的方式有两种MapJoin和ReduceJoin(shuffle join 或者)，

mapJoin在map阶段进行数据的join，这样可以减少在shuffle阶段进行join时，大量数据的网络传输，起到优化的作用; 比较适用于大表和小表的关联的时候；底层原理使用了broadcast join 将小表复制到所有的map作业中。

实现方法：客户端增加需要拷贝的小文件：DistributedCache.addCacheFile()；map类中set方法使用DistributedCache.getLocalCacheFiles()获取小文件的路径，并进行文件的拷贝，拷贝到各个TaskTracker的本地磁盘上
Hive v0.7之后的版本已经不需要给出MapJoin的指示就进行优化。set hive.auto.convert.join=true;hive.mapjoin.smalltable.filesize=25000000这个参数用于指定了对于小表定义的阈值

现象:大多数task都执行完了，少数执行需要很长时间；程序直接报OM。数据分到每个task上不均匀，经常发生与shuffle的时候，比如：join,distinct,groupbyKey等

原因：数据本身问题：1.key本身分布不均匀；2.key设置不合理；spark使用的问题：1.shuffle并发度不够；2.算子使用不合理

解决方案：

1.数据聚合放到hive端去做，

关注