(四)flume学习笔记——1.2再识flume
1.SinkProcessor
-
Default Sink Processor
如果agent中,只有一个sink,默认就使用Default Sink Processor,这个sink prrocessor是不强制用户,将sink组成一个组! 如果多个sink,多个sinl对接一个channel,不能选择Default Sink Processor
-
Failover Sink Processor
Failover Sink Processor维护了一个多个sink的有优先级的列表,按照优先级保证,至少有一个sink是可以干活的! 如果根据优先级发现,优先级高的sink故障了,故障的sink会被转移到一个故障的池中冷却! 在冷却时,故障的sink也会不管尝试发送event,一旦发送成功,此时会将故障的sink再移动到存活的池中!
-
Load balancing Sink Processor
负载均衡的sink processor!Load balancing SinkProcessor维持了sink组中active状态的sink! 使用round_robin或random算法,来分散sink组中存活的sink之间的负载!
2.事物
1.数量关系
batchSize:每个Source和Sinl都可以配置一个batchSize的参数。这个参数代表一次性到channel中put|take多少个event
batchSize <= transactionCapacity
transactionCapacity:putList和takeList的初始值!
capacity:channel中存储event的容量大小!
transactionCapacity <= capacity
2.概念
putList:source在向channel放入数据时的缓冲区!
putList在初始化时,需要根据一个固定的size初始化,这个size在channel中设置!
在channel中,这个size由参数transactionCapacity决定!
put事务流程:source将封装好的event先放入到putList中,放入完成后,一次性commiit(),这批event就可以写入到channel!写入完成后,清空putList,开始下一批数据的写入!
假如一批event中的某些event在放入putList时,发生了异常,此时要执行rollback(),rollback()直接清空putList。
takeList:sink在向channel卡区数据时的缓冲区!
take事务流程:sink不断从channel中拉取event,每拉取一个event,这个event会先放入到takeList中!当一个batchSize的event全部拉取到takeList中只后,此时由sink执行写出处理!
假如在写出过程中,发生了异常,此时执行回滚!将takeList中所有的event全部回滚到channel!反之,如果写出没有异常,执行commit(),清空takeList!