flume日志收集

最新推荐文章于 2023-12-24 12:33:57 发布

崔世勋

最新推荐文章于 2023-12-24 12:33:57 发布

阅读量354

点赞数

分类专栏： java

java 专栏收录该内容

350 篇文章 0 订阅

订阅专栏

一、Flume介绍

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制,比如文本、HDFS、HBase等）的能力。

Flume的数据流由事件Event贯穿始终，事件是Flume的基本数据单位，它携带日志数据（字节数组形式）并且携带有头信息。

设计目标：

(1) 可靠性

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）

Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），

Best effort（数据发送到接收方后，不会进行确认）。

(2) 可扩展性

Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单点故障问题。

(3) 可管理性

所有agent和colletor由master统一管理，这使得系统便于维护。多master情况，Flume利用ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提供了web 和shell script command两种形式对数据流进行管理。

(4) 功能可扩展性

用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent（file， syslog等），collector和storage（file，HDFS等）。

Flume采用了分层架构：分别为agent（数据采集器），collector（数据简单的处理和写入）和storage（存储器）。其中，agent和collector均由两部分组成：source和sink，source是数据来源，sink是数据去向。

Flume使用两个组件：Master和Node，Node根据在Master shell或web中动态配置，决定其是作为Agent还是Collector。

(1) agent

agent的作用是将数据源的数据发送给collector，包含三个核心组件，分别是Source,Channel，Sink.

Flume自带了很多直接可用的数据源（source），如：

text(“filename”)：将文件filename作为数据源，按行发送
tail(“filename”)：探测filename新产生的数据，按行发送出去
fsyslogTcp(5140)：监听TCP的5140端口，并且接收到的数据发送出去
tailDir("dirname"[, fileregex=".*"[, startFromEnd=false[, recurseDepth=0]]])：监听目录中的文件末尾，使用正则去选定需要监听的文件（不包含目录），recurseDepth为递归监听其下子目录的深度

更多可参见这位朋友的整理：http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/18/2050465.html

同时提供了很多sink，如：

console[("format")] ：直接将将数据显示在consolr上
text(“txtfile”)：将数据写到文件txtfile中
dfs(“dfsfile”)：将数据写到HDFS上的dfsfile文件中
syslogTcp(“host”,port)：将数据通过TCP传递给host节点
agentSink[("machine"[,port])]：等价于agentE2ESink，如果省略，machine参数，默认使用flume.collector.event.host与flume.collector.event.port作为默认collecotr
agentDFOSink[("machine" [,port])]：本地热备agent，agent发现collector节点故障后，不断检查collector的存活状态以便重新发送event，在此间产生的数据将缓存到本地磁盘中
agentBESink[("machine"[,port])]：不负责的agent，如果collector故障，将不做任何处理，它发送的数据也将被直接丢弃
agentE2EChain：指定多个collector提高可用性。当向主collector发送event失效后，转向第二个collector发送，当所有的collector失败后，它会非常执着的再来一遍

更多可参见这位朋友的整理：http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/18/2050472.html

(2) collector

collector的作用是将多个agent的数据汇总后，加载到storage中。

它的source和sink与agent类似。

数据源（source），如：

collectorSource[(port)]：Collector source，监听端口汇聚数据
autoCollectorSource：通过master协调物理节点自动汇聚数据
logicalSource：逻辑source，由master分配端口并监听rpcSink

sink，如：

collectorSink( "fsdir","fsfileprefix",rollmillis)：collectorSink，数据通过collector汇聚之后发送到hdfs, fsdir 是hdfs目录，fsfileprefix为文件前缀码
customdfs("hdfspath"[, "format"])：自定义格式dfs

(3) storage

storage是存储系统，可以是一个普通file，也可以是HDFS，HIVE，HBase，分布式存储等。

(4) Master

Master是管理协调agent和collector的配置等信息，是flume集群的控制器。

原文：http://www.blogjava.net/paulwong/archive/2013/10/31/405860.html

项目中为什么通常flume和kafka要共同使用？

1、海量日志系统

（1）作用是构建应用系统和分析系统的桥梁，并将它们之间的关联解耦。

（2）支持近实时的在线分析系统和类似Hadoop之类的离线分析系统。

（3）具有高扩展性，即当数据量增加时，可以通过增加节点进行水平扩展。

2、日志分析系统

为此建议将日志采集分析系统分为如下几个模块：

（1）数据采集模块

负责从各节点上实时采集数据，建议选用Apapche Flume

（2）数据接入模块

由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，建议选用Kafka来实现。

（3）流式计算模块

对采集到的数据进行实时分析，建议选用Storm来实现。

（4）数据输出模块

对分析后的结果持久化，可以使用HDFS，MySQL等。

3、对比

（1）Flume适用于没有编程的配置解决方案，由于提供了丰富的source、channel、sink实现，各种数据源的引入只是配置变更就可实现。

（2）Kafka适用于对数据管道的吞吐量、可用性要求都很高的解决方案，基本上需要编程实现数据的生产和消费。

4、Flume对接Kafka

建议采用Flume作米数据的生产者，这样可以不用编程就实现数据源的引入，并采用Kafka Sink作为数据的消费者，这样可以得到较高的吞吐量和可靠性。如果对数据的可靠性要求高的话，可以采用Kafka Channel来作为Flume的Channel使用。

（1）对接配置

（2）示例

假设现有Flume实时读取/data1/logs/component_role.log的数据并导入到Kafka的mytopic主题中

环境预设为：

Zookeeper 的地址为 zdh100:2181 zdh101:2181 zdh102:2181

Kafka broker的地址为 zdh100:9092 zdh101:9092 zdh102:9093

Flume agent配置

gent1.sources = logsrc

agent1.channels = memcnl

agent1.sinks = kafkasink

#source section

agent1.sources.logsrc.type = exec

agent1.sources.logsrc.command = tail -F /data1/logs/component_role.log

agent1.sources.logsrc.shell = /bin/sh -c

agent1.sources.logsrc.batchSize = 50

agent1.sources.logsrc.channels = memcnl

# Each sink's type must be defined

agent1.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink

agent1.sinks.kafkasink.brokerList=zdh100:9092, zdh101:9092,zdh102:9092

agent1.sinks.kafkasink.topic=mytopic

agent1.sinks.kafkasink.requiredAcks = 1

agent1.sinks.kafkasink.batchSize = 20

agent1.sinks.kafkasink.channel = memcnl

# Each channel's type is defined.

agent1.channels.memcnl.type = memory

agent1.channels.memcnl.capacity = 1000

启动Flume节点：

/home/mr/flume/bin/flume-ng agent -c

/home/mr/flume/conf -f /home/mr/flume/conf/flume-conf.properties -n agent1 -Dflume.monitoring.type=http -Dflume.monitoring.port=10100

最后欢迎大家访问我的个人网站：1024s

崔世勋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flume日志收集

一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制,比如文本、HDFS、HBase等）的能力。Flume的数据流由事件Event贯穿始终，事件是Flume的基本数据单位，它携带日志数据（字节数组形式）并且携带有头信息。设计目标：(1) 可靠性...
复制链接

扫一扫

专栏目录