文章目录
前言
前面几篇文章笔者讲述了2篇关于文件目录删除的相关文章,也提到了一些相对应的解决方案和思路。不过笔者本文想再谈谈对于这个问题的一些思考,主要关注在HDFS下大目录的删除性能影响方面。不敢说是谈论的是HDFS大目录删除的最佳实践方案,但是在某些点上,在实际环境中还是有一定的可应用性的。本文部分内容会引入笔者前段时间写的两篇相关文章:聊聊HDFS删除Snapshot行为导致的NameNode crash和文件系统大目录下的操作性能效率提升
。
HDFS的大目录删除行为
曾经执行过HDFS大目录rm行为的同学,应该能切身体会到这个操作给集群带来的重大影响,尤其当这个大目录拥有数量庞大的子文件数以及足够深的深度目录树。
因为这个删除操作本身是要池NN FSN锁的,所以这个过程执行的越漫长,对其它正常的RPC请求的处理影响就越大。
那么为什么大目录删除会有这么大的影响呢,总结下来有以下相关三点: