Kafka 和 Flume 总结

Flume

Flume 是一种 分布式、可靠的和可用的服务,用于高效地收集、聚集和移动大量日志数据。Flume最主要的角色是 agent,其包括: source,channel,sink。

角色简介
sourcesource 用于采集数据,source 是产生数据流的地方,同时 source 会将产生的数据流传输到 channel
channel连接 source 和 sink,类似于队列
sink从 channel 收集数据,将数据写到目标源,可以是下一个 source 也可以是 HDFS 或者 HBase

在这里插入图片描述

  1. Event 是 Flume 数据传输的基本单元;
  2. Flume 主要以事件的形式将数据从 source 发送到最终目的地 sink;
  3. Event 由可选的 header 和载有数据的字节数组 byte array 构成,载有的数据对 Flume 是透明的,Header 能容纳 Key-value的无序集合,key在集合内是唯一的,Header 可以在上下文路由中使用扩展。

案例:

# define agent
a1.sources = s1
a1.channels = c1
a1.sinks = k1

# define sources
a1.sources.s1.type = exec
#推荐绝对路径
a1.sources.s1.command = tail -f /opt/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log


# define channels
a1.channels.c1.type = memory
# 下面的配置的单位是event
#  transactionCapacity比capacity推荐1:10到1:100
a1.channels.c1.capacity = 100
a1.channels.c1.transactionCapacity = 10

# define sink
a1.sinks.k1.type = logger

# bind the soures and  sink to the channel
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

Kafka Flume 使用分析

Kafka 与 Flume 都是日志系统,Kafka是分布式消息中间件,提供了push 和 pull 存取数据功能。自带存储,Kafka 做日志缓存就更为合适。而 Flume 更加适合于数据采集,可以定制很多数据源。

目前大多数采用 Flume + Kafka,将Flume 的数据采集能力和 Kafka 的缓存功能利用起来。但是如果需要 Flume 写 HDFS 的能力,那么也可以采用 Kafka + Flume 的形式。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值