- HDFS存储大量的小文件,有什么影响?
(1) 元数据层面:每个小文件都有一份元数据,其中包括文件路径、文件名、所有者、所属组、权限、创建时间等,这些信息都保存在namenode中。所以,小文件过多,会占据namenode服务器大量的内存,影响namenode的性能和使用寿命;
(2) 计算层面:默认情况下,MR会对每个小文件启动一个map任务计算,非常影响计算性能;同时也影响磁盘寻址时间。 - 怎么解决小文件过多的问题
在flume配置中设置三个参数:
(1) hdfs.rollInterval:文件创建超多少秒时会滚动生成新文件
(2) hdfs.rollSize: 文件在达到多少个字节时会滚动生成新文件
(3) hdfs.rollCount:当event个数达到多少个的时候会滚动生成新文件
flume做采集的话,怎么解决小文件过多的问题
最新推荐文章于 2023-09-07 15:44:31 发布