HDFS集群优化

大数据面试指南

于 2021-03-02 21:16:01 发布

阅读量356

点赞数

分类专栏： HDFS hadoop 大数据文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/czxylzl/article/details/114294750

版权

本文详细介绍了如何优化HDFS集群的性能和配置，包括操作系统级别的优化，如选择XFS文件系统，增大预读缓冲区，采用JBOD而非RAID或LVM；以及HDFS集群的性能优化策略，如归档、压缩；和配置优化，如增加NameNode和DataNode的处理线程数，合理设置数据块的备份数和大小，启用机架感知等。通过对各项参数的调整，可以显著提升HDFS的并发处理能力和数据安全性。

摘要由CSDN通过智能技术生成

操作系统级别优化
1.优化文件系统

（推荐使用EXT4和XFS文件系统，相比较而言，更推荐后者，因为XFS已经帮我们做了大量的优化。）
2.预读缓冲
　　预读技术可以有效的减少磁盘寻道次数和应用的I/O等待时间，增加Linux文件系统预读缓冲区的大小(默认为256 sectors，128KB)，可以明显提高顺序文件的读性能，建议调整到1024或2048 sectors。预读缓冲区的设置可以通过blockdev命令来完成。
3.放弃RAID和LVM磁盘管理方式，选用JBOD
复制代码
不使用RAID
　　应避免在TaskTracker和DataNode所在的节点上进行RAID。RAID为保证数据可靠性，根据类型的不同会做一些额外的操作，HDFS有自己的备份机制，无需使用RAID来保证数据的高可用性。
不使用LVM
　　LVM是建立在磁盘和分区之上的逻辑层，将Linux文件系统建立在LVM之上，可实现灵活的磁盘分区管理能力。DataNode上的数据主要用于批量的读写，不需要这种特性，建议将每个磁盘单独分区，分别挂载到不同的存储目录下，从而使得数据跨磁盘分布，不同数据块的读操作可并行执行，有助于提升读性能。
JBOD
　　JBOD是在一个底板上安装的带有多个磁盘驱动器的存储设备，JBOD没有使用前端逻辑来管理磁盘数据，每个磁盘可实现独立并行的寻址。将DataNode部署在配置JBOD设备的服务器上可提高DataNode性能。

4.内存调优
　　避免使用swap分区，将Hadoop守护进程的数据交换到磁盘的行为可能会导致操作超时。温馨提示，避免使用swap分区并不意味着就不会使用swap分区，而是通过配置降低swap使用的可能性。

最低0.47元/天解锁文章

大数据面试指南

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS集群优化

操作系统级别优化1.优化文件系统（推荐使用EXT4和XFS文件系统，相比较而言，更推荐后者，因为XFS已经帮我们做了大量的优化。）2.预读缓冲　　预读技术可以有效的减少磁盘寻道次数和应用的I/O等待时间，增加Linux文件系统预读缓冲区的大小(默认为256 sectors，128KB)，可以明显提高顺序文件的读性能，建议调整到1024或2048 sectors。预读缓冲区的设置可以通过blockdev命令来完成。3.放弃RAID和LVM磁盘管理方式，选用JBOD复制代码不使用RAID　　应避
复制链接

扫一扫

专栏目录