![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
flume
星空下的那个人影
不像程序员的程序猿
展开
-
flume做采集的话,怎么解决小文件过多的问题
HDFS存储大量的小文件,有什么影响?(1) 元数据层面:每个小文件都有一份元数据,其中包括文件路径、文件名、所有者、所属组、权限、创建时间等,这些信息都保存在namenode中。所以,小文件过多,会占据namenode服务器大量的内存,影响namenode的性能和使用寿命;(2) 计算层面:默认情况下,MR会对每个小文件启动一个map任务计算,非常影响计算性能;同时也影响磁盘寻址时间。怎么解决小文件过多的问题在flume配置中设置三个参数:(1) hdfs.rollInterval:文件创建超.原创 2022-04-11 21:02:04 · 826 阅读 · 1 评论 -
Flume 组成,Put 事务,Take 事务
Taildir sourcea. 断点续传(网络故障还可以读到数据)b. 能够实时的监控文件产生的数据的变化c. 多目录d. Taildir 改了怎么办?——不会丢数,断点续传e. 怎么处理重复数据?——不处理,生产环境下通常不处理,因为会影响传输效率Kafka channel(下一级是Kafka)数据存储在Kafka中,基于磁盘;优点:可靠性高减少了 Flume 的 Sink 阶段,提高了传输效率。File channel(金融、对钱要求准确)数据存储在磁盘中;优点:可..原创 2022-04-11 11:46:58 · 501 阅读 · 0 评论