Flume
文章平均质量分 82
大步流星520
这个作者很懒,什么都没留下…
展开
-
Flume快速入门(一):背景简介
Flume由Cloudera于2009年7月开源,后变成Apache的顶级项目之一,由Java语言开发,致力于解决大量日志流数据的迁移问题。日志是大数据分析领域的主要数据来源之一,如何将线上成百上千的业务系统日志高效、可靠的迁移到我们的hdfs中去,Flume提供了一个很好的解决方案。Flume——一个纯粹为流式数据迁移而生的分布式服务。 现如今,几乎所有开源的成...原创 2016-05-14 11:12:14 · 579 阅读 · 0 评论 -
Flume快速入门(二):设计从简
上一篇文章简单介绍了下Flume的背景,接下来本文说说Flume NG的内部设计。注意:本文针对的是Flume1.6.0版本。 上一篇:http://manzhizhen.iteye.com/blog/2298150 我们先来看看为什么需要Flume,在大数据分析领域,最重要的就是数据,而日志作为首选数据来源之一,有着举足轻重的地位,如今企业的线上业务服...原创 2016-05-15 13:55:36 · 180 阅读 · 0 评论 -
Flume快速入门(三):File Channel之写Event
有了前两篇博文的基础,相信大家对Flume Agent的内部结构已经有了个初步的了解,现在我们来详细介绍最常用的文件通道——File Channel,本篇博客主要介绍Eevnt是如何完成写到File Channel这一操作的。 上一篇: http://manzhizhen.iteye.com/blog/2298159 Channel是联系Sou...原创 2016-05-22 12:44:29 · 703 阅读 · 0 评论 -
Flume快速入门(四):File Channel之FlumeEventQueue
虽然我们把FlumeEventQueue想象成Event指针的内存队列,但FlumeEventQueue中的内部实现是很绕的,不跑跑Flume的单元测试,很容易看晕。本文的目的就是通过简化模型来剖析FlumeEventQueue中的四种操作:addTail、removeHead、addHead和remove。 上一篇博文地址:http://manzhizhen.i...原创 2016-06-05 23:14:37 · 297 阅读 · 0 评论 -
Flume快速入门(五):File Channel之重播(replay)
当FlumeChannel启动时,或者故障恢复时,会经历一次重播(replay)过程,重播的目的就是还原上一次的“现场”,当然,最主要的就是恢复FlumeEventQueue中的内存队列相关数据。重播的主要实现是有Log类来做的,Log类的replay实现了整个重播过程,简单来说,重播过程分为如下几个步骤: 步骤1:获取检查点文件的独占锁(checkpointWriterLoc...2016-07-14 00:30:56 · 790 阅读 · 0 评论