HDFS调优

一、hdfs优化:小文件优化 (块处理、150B元数据索引,索引文件过大导致索引速度变慢)
1)Hadoop Archive(对外一个文件,对内多个小文件)
  是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样就减少了namenode的内存使用。
2)Sequence file
   sequence file由一系列的二进制key/value组成,如果key为文件名,value为文件内容,则可以将大批小文件合并成一个大文件。
3)CombineFileInputFormat
   CombineFileInputFormat是一种新的inputformat,用于将多个文件合并成一个单独的split,另外,它会考虑数据的存储位置。
4)开启JVM重用
    对于大量小文件Job,可以开启JVM重用会减少45%运行时间。
    JVM重用理解:一个map运行一个jvm,重用的话,在一个map在jvm上运行完毕后,jvm继续运行其他map。
    具体设置:mapreduce.job.jvm.numtasks值在10-20之间。

 

二、参数调优:

1) dfs.namenode.handler.count=20logN(Cluster Size)   默认值10。一般将其设置为集群大小的自然对数乘以20,即20logN,N为集群大小

     NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说,通常需要增大参数

 

2)dfs.namenode.edits.dir与dfs.namenode.name.dir

    日志存储路径dfs.namenode.edits.dir与镜像文件存储路径dfs.namenode.name.dir尽量分开,达到最低写入延迟

 

三、Hdfs调优可靠性策略:

HA高可用(元数据保护)

安全模式

冗余副本策略

存放副本策略

快照机制

回收站

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值