![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
陈彦云
进阶ing
展开
-
Hadoop优化
Hadoop优化0)HDFS小文件影响(1)影响NameNode的寿命,因为文件元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务1)数据输入小文件处理:(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储成SequenceFile文件。(2)采用ConbinFileInputForma...原创 2019-08-04 21:15:35 · 108 阅读 · 0 评论 -
Hadoop宕机
1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB)2)如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存,高峰期过去数据同步会自动...原创 2019-08-04 21:22:05 · 671 阅读 · 1 评论