Flume
简单学习
13床秃头患者
这个作者很懒,什么都没留下…
展开
-
Flume----企业开发案例之聚合
聚合案例使用三台节点,b02master 上的agent1 监控文件/root/test.log,b02slave1上的agent2监控某一个端口的数据流,agent1和agent2将数据发送给 b02slave2 上的agent3最终数据打印到控制台agent1.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the source原创 2021-10-20 09:43:21 · 142 阅读 · 0 评论 -
Flume----企业开发案例之故障转移
故障转移使用agent1 监控一个端口,其 sink 组中的 sink 分别对接agent2和 agent3,采用FailoverSinkProcessor,实现故障转移的功能。配置三个agent文件agent1.conf# Name the components on this agenta1.sources = r1a1.channels = c1a1.sinkgroups = g1a1.sinks = k1 k2# Describe/configure the sourcea1原创 2021-10-19 21:19:35 · 99 阅读 · 0 评论 -
Flume----企业开发案例之复制
Flume企业级开发案例复制使用agent1监控文件变动agent1 将变动内容传递给agent2,agent2负责存储到HDFS,同时agent1将变内容传递给agent3,agent3负责输出到LocalFileSystem故障转移聚合原创 2021-10-18 21:12:00 · 73 阅读 · 0 评论 -
Flume进阶----Flume拓扑结构
Flume拓扑结构agent与agent之间连接的时候需要使用(AVRO端口监听)简单串联这种模式是将多个 flume 的agent顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量,flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。复制和多路复用Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel 中,或者将不同数据原创 2021-10-17 20:48:41 · 123 阅读 · 0 评论 -
Flume进阶----Agent内部原理
Agent内部原理选择器Replicating Channel Selector (default) :副本选择器 默认开启将Source中的数据分发给所有的ChannelMultiplexing Channel Selector:多路选择器将数据有选择性的发给Channel拦截器首先数据通Source进行接收,把数据封装到event中 从source向channel发通过拦截器在Source与Channel中进行拦截通过Interceptor拦截器将数据发给==Chann原创 2021-10-17 20:17:39 · 166 阅读 · 0 评论 -
Flume进阶----事务
Flume的事务Flume流式处理Flume中有两类事务Source -> Channel 是put事务内部事务实现方法Source对接外部的一个数据源通过Source采集过来 封装到event中进行分发 每次的大小不能太小在其中有一个可以调节数据发送大小“batchsize”当从Source中发送数据是突然断掉先通过调用doput的方法吧数据方法内存中一个叫putlist中提交的时候是由putlist进行提交提交到docommit方法中通过do原创 2021-10-17 15:45:00 · 124 阅读 · 0 评论 -
Flume前提回顾
Flume进阶使用前提回顾flume是以三大部分组成agent:flume 的组成单位,包括了Source,Channel,SinkSourcenetcat:官方提供的端口监控组件exec 用于监控Linux中的命令的(tail-F)Spooldir:监控一个目录的。如果目录中出现了新的文件,就文件内容采集过来。taildir:监控多文件,维护offset(支持断点续传 根据计算下载时记载在json中的系统偏移量来实现断点续传)KafkaChannelmemory原创 2021-10-17 11:26:45 · 68 阅读 · 0 评论 -
Exec2Logger
Exec2LoggerExecSource的配置就是设定一个Unix(linux)命令,然后通过这个命令不断输出数据。如果进程退出,Exec Source也一起退出。配置Flume案例在这个目录下新建test.log /usr/software/flume-1.7.0在其中随意输入文字然后再输入以下命令bin/flume-ng agent -c conf -f conf/exec2logger.conf -n a1 -Dflume.root.logger=INFO,console原创 2021-10-16 22:30:00 · 63 阅读 · 0 评论 -
hdfssink
先开启hadoopsh hadop.sh start编辑配置文件vi exec2hdfs.conf#Name the components on this agenta1.sources= s1a1.sinks= k1a1.channels= c1#配置sourcesa1.sources.s1.type = execa1.sources.s1.command = tail -F /root/test.log#配置sinks# Describe the sinka1.s.原创 2021-10-16 18:21:19 · 76 阅读 · 0 评论 -
Spooldir
Spooldir2HDFSSpooldir监控一个目录的。如果目录中出现了新的文件,就文件内容采集过来。flume中的常见问题文件采集丢失文件采集重复断点续传使用taildirHDFS来进行监控TaildirHDFS支持断点续传断点采集方式在采集中 将文件实时的记录在json文件中将文件地址和他计算的偏移量记录文件被采集到哪里根据计算偏移量来进行之后文件的加载flume采集文件时将以组的形式来进行组一采集一个 组二采集一个...原创 2021-10-16 18:20:51 · 326 阅读 · 0 评论