Flume源代码解读三

最新推荐文章于 2022-03-31 20:35:21 发布

qq_35399459

最新推荐文章于 2022-03-31 20:35:21 发布

阅读量112

点赞数

分类专栏： Hadoop 文章标签： Hadoop Flume 日志收集

本文链接：https://blog.csdn.net/qq_35399459/article/details/84166381

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

[ xcly原创于iteye,见http://xcly.iteye.com ]

本节重点介绍 agentSink中ENDTOEND的实现。

每一个节点通过source获得事件Event,然后由sink处理，sink同source一样，flume提供了多种实现，sink的生成同Flume源代码解读一中介绍的实现方式类似，由SinkFactory工厂方法实现，跟SourceFactory不一样的是定义了取得SinkDecoBuilder的抽象方法,在SinkFactoryImpl中不止通过name可以获得EventSink，也可以获得EventSinkDecorator，关键点是EventSinkDecorator也是EventSink.Base的子类。这种装饰器模式的实现方式給事件的处理方式提供了类似于管道流的一种实现，我们可以将任意EventSinkDecorator串成一个管道，用来对事件进行加工和处理。

我们看ENDTOEND的实现，就是一串ackedWriteAhead => { stubbornAppend => { insistentOpen =>rpcSink，由FlumeBuilder的buildSink实现。这里使用了强大的语言识别工具Antlr, 具体实现细节还有待深究。

下次补上。

ackedWriteAhead 对应的实现类是NaiveFileWALDec, NaiveFileWALDeco是一个非常重要的类，它里面有两套数据流机制, 一套是RollSink开始的将数据不断写入本地硬盘的数据流，当数据写入本地硬盘后，通过DirectDriver的一个线程不断循环从写好的硬盘数据中获取数据发送至collector,如果写成功，再删除硬盘上的数据。

NaiveFileWALDec的build中申明了几个关键的类是从FlumeNode实例中取得的，NaiveFileWALManager负责数据的持久化，当再次尝试发生时，也读取数据，最初数据都是写入writing目录。 WALAckManager和它之中的PendingAckQueuer， WALAckManager负责act check,并且调用PendingAckQueuer作为结束数据append的动作。即PendingAckQueuer的end方法。

RollSink的newSink见NaiveFileWALManager的newAckWritingSink方法，AckChecksumInjector嵌套SeqfileEventSink， AckChecksumInjector在event中添加tag/checksum和时间作为校验和，并且对消息body使用了hash算法。而 SeqfileEventSink主要负责将数据流写入本地文件系统。

未完待续

qq_35399459

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flume源代码解读三

[ xcly原创于iteye,见http://xcly.iteye.com ] 本节重点介绍 agentSink中ENDTOEND的实现。每一个节点通过source获得事件Event,然后由sink处理，sink同source一样，flume提供了多种实现，sink的生成同Flume源代码解读一中介绍的实现方式类似，由SinkFactory工厂方法实现，跟SourceF...
复制链接

扫一扫

专栏目录