hadoop、hive优化、hive数据倾斜面试必备

hadoop优化分mr,yarn
1.yarn小文件处理:har归档,CombineTextInputFormat:切片角度,把很多小文件当成一个切片,jvm归档
2mr

1.Map阶段

(1)增大环形缓冲区的大小。由100m扩大到200m

(2)增大环形缓冲区的溢写比例。有80%扩大到90%

(3)减少对溢写文件的merge次数.(10个文件,一次20个merge)

(4)不影响实际业务的前提下,采用Combiner提前合并,减少IO
2.3)Reduce阶段

(1)合理设置Map和Reduce数:两个都不能设置太少,也不能设置太多。太少,会导致Task等待,延长处理时间;太多会导致Map、Reduce任务间竞争资源,造成处理超时等错误。
(2)增加每个Reduce去Map中拿数据的并行数
3.IO传输
(1)采用数据压缩的方式,减少网络IO的时间。

hive优化
1.Mapjoin
2.行列过滤
3.列式存储
4.分区
5.map数
6.reduce数
7.在map执行前合并小文件,CombineHIveInputFormat
8.开启jvm重用
9.开启map端combiner
10.压缩
11.采用spark引擎
以上两个的共同点:
有太多优化的点可以说了

hive数据倾斜解决方法
1.数据类型强转
2.自定义分区控制空值分布

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop Hive是一个基于Hadoop的数据仓库基础设施,它提供了数据的存储、查询和分析功能。根据引用\[1\]中提供的信息,Hadoop Hive的版本是apache-hive-2.3.9。在部署Hadoop Hive之前,需要确保已经完成了Hadoop集群的部署,并且已经安装了所需的软件,如JDK、Zookeeper等。根据引用\[1\]中提供的信息,Hadoop版本是hadoop-2.7.3,Zookeeper版本是zookeeper-3.4.10,JDK版本是jdk1.8.0_171。 在部署Hadoop Hive时,可能还需要将相关的软件文件复制到各个节点上。根据引用\[2\]和引用\[3\]中提供的信息,可以使用scp命令将hbase-1.0.0-cdh5.4.8和hadoop2文件夹复制到各个节点上的相应目录中。 总结起来,Hadoop Hive是一个基于Hadoop的数据仓库基础设施,用于存储、查询和分析数据。在部署Hadoop Hive之前,需要先部署Hadoop集群,并安装所需的软件,如JDK、Zookeeper等。在部署过程中,可能需要使用scp命令将相关的软件文件复制到各个节点上。 #### 引用[.reference_title] - *1* [Hadoop集群搭建Hive集群](https://blog.csdn.net/qq_34158880/article/details/126015857)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [hadoop教程hive hadoop+hive](https://blog.csdn.net/OGgBoom/article/details/131523356)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值