HDFS调优

最新推荐文章于 2024-03-19 02:21:30 发布

不急吃口药

最新推荐文章于 2024-03-19 02:21:30 发布

阅读量593

点赞数

分类专栏：大数据资料笔记整理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huang66666666/article/details/100883260

版权

大数据资料笔记整理专栏收录该内容

60 篇文章 1 订阅

订阅专栏

一、hdfs优化：小文件优化（块处理、150B元数据索引，索引文件过大导致索引速度变慢）
1）Hadoop Archive（对外一个文件，对内多个小文件）
是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样就减少了namenode的内存使用。
2）Sequence file
sequence file由一系列的二进制key/value组成，如果key为文件名，value为文件内容，则可以将大批小文件合并成一个大文件。
3）CombineFileInputFormat
CombineFileInputFormat是一种新的inputformat，用于将多个文件合并成一个单独的split，另外，它会考虑数据的存储位置。
4）开启JVM重用
   对于大量小文件Job，可以开启JVM重用会减少45%运行时间。
   JVM重用理解：一个map运行一个jvm，重用的话，在一个map在jvm上运行完毕后，jvm继续运行其他map。
   具体设置：mapreduce.job.jvm.numtasks值在10-20之间。

二、参数调优：

1) dfs.namenode.handler.count=20logN(Cluster Size) 默认值10。一般将其设置为集群大小的自然对数乘以20，即20logN，N为集群大小

NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大参数

2)dfs.namenode.edits.dir与dfs.namenode.name.dir

日志存储路径dfs.namenode.edits.dir与镜像文件存储路径dfs.namenode.name.dir尽量分开，达到最低写入延迟

三、Hdfs调优可靠性策略:

HA高可用(元数据保护)

安全模式

冗余副本策略

存放副本策略

快照机制

回收站

不急吃口药

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
HDFS调优

一、hdfs优化：小文件优化（块处理、150B元数据索引，索引文件过大导致索引速度变慢）1）Hadoop Archive（对外一个文件，对内多个小文件）是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样就减少了namenode的内存使用。2）Sequence file sequence file由一系列的二进制key/value组成，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。