hadoop优化分mr,yarn
1.yarn小文件处理:har归档,CombineTextInputFormat:切片角度,把很多小文件当成一个切片,jvm归档
2mr
1.Map阶段
(1)增大环形缓冲区的大小。由100m扩大到200m
(2)增大环形缓冲区的溢写比例。有80%扩大到90%
(3)减少对溢写文件的merge次数.(10个文件,一次20个merge)
(4)不影响实际业务的前提下,采用Combiner提前合并,减少IO
2.3)Reduce阶段
(1)合理设置Map和Reduce数:两个都不能设置太少,也不能设置太多。太少,会导致Task等待,延长处理时间;太多会导致Map、Reduce任务间竞争资源,造成处理超时等错误。
(2)增加每个Reduce去Map中拿数据的并行数
3.IO传输
(1)采用数据压缩的方式,减少网络IO的时间。
hive优化
1.Mapjoin
2.行列过滤
3.列式存储
4.分区
5.map数
6.reduce数
7.在map执行前合并小文件,CombineHIveInputFormat
8.开启jvm重用
9.开启map端combiner
10.压缩
11.采用spark引擎
以上两个的共同点:
有太多优化的点可以说了
hive数据倾斜解决方法
1.数据类型强转
2.自定义分区控制空值分布