flume
lianchaozhao
这个作者很懒,什么都没留下…
展开
-
flume拦截器分类使用和自定义拦截器
在数据采集过程中,我们经常需要设计拦截器,将不合适的数据,过滤掉,减少网络传输的压力。常用的过滤器,自己分为几类第一类:添加额为数据的拦截器包含了时间戳拦截器、主机拦截器、静态拦截器1、Timestamp Interceptor(时间戳拦截器)flume中一个最经常使用的拦截器 ,该拦截器的作用是将时间戳插入到flume的事件报头中。如果不使用任何拦截器,flume接受到的只有messag...原创 2020-03-11 14:16:49 · 345 阅读 · 0 评论 -
flume执行流程及源码解读
1、flume 指定配置文件启动bin/flume-ng agent -c conf -f conf/LogDetailExpose4KafkaFlume.conf -n aApacheFlume --classpath /home/dmpflume-jar-with-dependencies.jar -Dflume.root.logger=INFO,console#注意:因为需要指定自己实现...原创 2019-12-30 17:37:30 · 840 阅读 · 0 评论 -
flume 数据放丢失保证
flume 数据不丢失保证:1、但是根据Flume的架构原理,再采用FileChannel的Flume是不可能丢失数据的,因为其内部有完善的事务机制(ACID)。Source到Channel是事务性的,Channel到Sink也是事务性的,这两个环节都不可能丢失数据。在采集阶段flume 采取采用 TAILDIR偏移量存储在: /var/log/flume-ng/taildir_po...原创 2019-11-22 18:40:04 · 1168 阅读 · 0 评论 -
flume集群实现高可用集群
本人采用双节点的方式其中两个节点都存活时 :两个节点做负载均衡使用其中一个节点宕机 : 一个节点承担从前两个节点的流量 (做到高可用)channel 直接对接kafka 节省资源其中配置为 (两份)tier1.sources = source1 #对应sources名字tier1.channels = kafka-mobile-channel #对应channel 名...原创 2020-08-05 15:56:13 · 302 阅读 · 0 评论 -
spark-streaming 获取 flume 传递的header
环境:cm 5.13.0flume 和kafka 为 cm 自动安装spark-streaming 通过远程安装的版本为 2.2.0flume+kafka+spark-streaming,应该说这一套架构已经成为流式计算的标配了。具体配置为 采集数据的flumeagentcollector.sources = taildir-sourcecollector.channels = f...原创 2019-01-21 15:20:58 · 610 阅读 · 2 评论