我们都知道Flume是一个日志文件传输的工具,传输过程会经过三大步骤:
1.通过source 把数据从数据源(网络端口,本地磁盘等)读出出来
2.通过source把数据传入到channel里面
3.再把数据从channel传输到sink里面,sink把数据传给目的地(hdfs).
当然传输数据的过程并不是只有这三个步骤,flume 竟然是传输数据的,所以得考虑到数据传输时数据的完整性 . Flume在传输数据的时候很有可能因为传输速率的不一致导致channel满了,从而导致数据丢失。
channel是被动的,source这边是主动把数据put给channel,sink这边是主动把数据从channel拉取take,所以channel是被动操作的。
一般channel使用MemoryChannel,这是内存的,断电会丢失数据,也可以使用filechannel(磁盘),filechannel速度慢,但有提供日志级别的数据恢复功能,不过不断电MemoryChannel是不会丢数据的,所以一般选用memorychannel也OK。
source把数据传给channel 时不是直接传给channel,中间还有put事务