flume
星空下的那个人影
不像程序员的程序猿
展开
-
flume做采集的话,怎么解决小文件过多的问题
HDFS存储大量的小文件,有什么影响? (1) 元数据层面:每个小文件都有一份元数据,其中包括文件路径、文件名、所有者、所属组、权限、创建时间等,这些信息都保存在namenode中。所以,小文件过多,会占据namenode服务器大量的内存,影响namenode的性能和使用寿命; (2) 计算层面:默认情况下,MR会对每个小文件启动一个map任务计算,非常影响计算性能;同时也影响磁盘寻址时间。 怎么解决小文件过多的问题 在flume配置中设置三个参数: (1) hdfs.rollInterval:文件创建超.原创 2022-04-11 21:02:04 · 868 阅读 · 1 评论 -
Flume 组成,Put 事务,Take 事务
Taildir source a. 断点续传(网络故障还可以读到数据) b. 能够实时的监控文件产生的数据的变化 c. 多目录 d. Taildir 改了怎么办?——不会丢数,断点续传 e. 怎么处理重复数据?——不处理,生产环境下通常不处理,因为会影响传输效率 Kafka channel(下一级是Kafka) 数据存储在Kafka中,基于磁盘; 优点:可靠性高 减少了 Flume 的 Sink 阶段,提高了传输效率。 File channel(金融、对钱要求准确) 数据存储在磁盘中; 优点:可..原创 2022-04-11 11:46:58 · 536 阅读 · 0 评论