Flume
Flume 是一种 分布式、可靠的和可用的服务,用于高效地收集、聚集和移动大量日志数据。Flume最主要的角色是 agent,其包括: source,channel,sink。
角色 | 简介 |
---|---|
source | source 用于采集数据,source 是产生数据流的地方,同时 source 会将产生的数据流传输到 channel |
channel | 连接 source 和 sink,类似于队列 |
sink | 从 channel 收集数据,将数据写到目标源,可以是下一个 source 也可以是 HDFS 或者 HBase |
- Event 是 Flume 数据传输的基本单元;
- Flume 主要以事件的形式将数据从 source 发送到最终目的地 sink;
- Event 由可选的 header 和载有数据的字节数组 byte array 构成,载有的数据对 Flume 是透明的,Header 能容纳 Key-value的无序集合,key在集合内是唯一的,Header 可以在上下文路由中使用扩展。
案例:
# define agent
a1.sources = s1
a1.channels = c1
a1.sinks = k1
# define sources
a1.sources.s1.type = exec
#推荐绝对路径
a1.sources.s1.command = tail -f /opt/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log
# define channels
a1.channels.c1.type = memory
# 下面的配置的单位是event
# transactionCapacity比capacity推荐1:10到1:100
a1.channels.c1.capacity = 100
a1.channels.c1.transactionCapacity = 10
# define sink
a1.sinks.k1.type = logger
# bind the soures and sink to the channel
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1
Kafka Flume 使用分析
Kafka 与 Flume 都是日志系统,Kafka是分布式消息中间件,提供了push 和 pull 存取数据功能。自带存储,Kafka 做日志缓存就更为合适。而 Flume 更加适合于数据采集,可以定制很多数据源。
目前大多数采用 Flume + Kafka,将Flume 的数据采集能力和 Kafka 的缓存功能利用起来。但是如果需要 Flume 写 HDFS 的能力,那么也可以采用 Kafka + Flume 的形式。