Flume
Flume
澜的大数据
这个作者很懒,什么都没留下…
展开
-
Flume的Source、Channel类型选择
好处:实时监控文件变化坏处:有丢数据的风险好处:可以实现断点续传坏处:不能实时监控文件变化好处:断点续传,可以实时监控文件变换数据存储在磁盘中 可靠性高 效率低数据存储在内存中,可靠性差,效率低数据存储在kafka中,存储在磁盘中,可靠性高,省去了kafka sink,传输效率也高(flume 1.6的时候诞生的,pares AsAflumeEvent=true ,设为flase不起作用,在1.7版本修复了bug)...原创 2022-07-01 15:06:16 · 229 阅读 · 0 评论 -
Flume报错:java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/
我在网上搜了很多,原因是jar包冲突,这点确实,他们的解决办法都是让把Hadoop的hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar拷贝到Flume的flume-1.9.0/lib中,并删除Flume自带的flume-1.9.0/lib/guava-11.0.2.jar,但是我这样操作后还是报上面的错误。后面我把Kafka的kafka_2.11-2.4.1/libs/guava-20.0.jar拷贝到Flume的flume-1.9.0/lib中,原创 2022-06-17 19:53:30 · 652 阅读 · 0 评论 -
Flume事务理解
听完别人根据源码讲解的Flume事务,大概有了初步理解:1:putList1.1 Source读取外界数据,放到putList里面,然后doCommit 提交给Channel1.2 如果Channel拉取数据异常,将开启doRollback回滚,此时数据就会回到putList,但是putList会把这部分数据清空,所以此时可能会丢失数据,因为如果用netcat Source ,它不会记录位置信息,也就是它读取外界数据时读到哪了,它不知道,你只会继续往下进行;但是如果使用taildir Source原创 2022-05-20 14:46:18 · 292 阅读 · 0 评论