Kafka 和 Flume 总结

最新推荐文章于 2024-05-10 22:59:38 发布

Oasen

最新推荐文章于 2024-05-10 22:59:38 发布

阅读量514

点赞数

分类专栏： Kafka

本文链接：https://blog.csdn.net/dec_sun/article/details/89077334

版权

Kafka 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Flume

Flume 是一种分布式、可靠的和可用的服务，用于高效地收集、聚集和移动大量日志数据。Flume最主要的角色是 agent，其包括： source，channel，sink。

角色	简介
source	source 用于采集数据，source 是产生数据流的地方，同时 source 会将产生的数据流传输到 channel
channel	连接 source 和 sink，类似于队列
sink	从 channel 收集数据，将数据写到目标源，可以是下一个 source 也可以是 HDFS 或者 HBase

在这里插入图片描述

Event 是 Flume 数据传输的基本单元；
Flume 主要以事件的形式将数据从 source 发送到最终目的地 sink；
Event 由可选的 header 和载有数据的字节数组 byte array 构成，载有的数据对 Flume 是透明的，Header 能容纳 Key-value的无序集合，key在集合内是唯一的，Header 可以在上下文路由中使用扩展。

案例：

# define agent
a1.sources = s1
a1.channels = c1
a1.sinks = k1

# define sources
a1.sources.s1.type = exec
#推荐绝对路径
a1.sources.s1.command = tail -f /opt/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log


# define channels
a1.channels.c1.type = memory
# 下面的配置的单位是event
#  transactionCapacity比capacity推荐1：10到1：100
a1.channels.c1.capacity = 100
a1.channels.c1.transactionCapacity = 10

# define sink
a1.sinks.k1.type = logger

# bind the soures and  sink to the channel
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

Kafka Flume 使用分析

Kafka 与 Flume 都是日志系统，Kafka是分布式消息中间件，提供了push 和 pull 存取数据功能。自带存储，Kafka 做日志缓存就更为合适。而 Flume 更加适合于数据采集，可以定制很多数据源。

目前大多数采用 Flume + Kafka，将Flume 的数据采集能力和 Kafka 的缓存功能利用起来。但是如果需要 Flume 写 HDFS 的能力，那么也可以采用 Kafka + Flume 的形式。

Oasen

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Kafka 和 Flume 总结

FlumeFlume 是一种分布式、可靠的和可用的服务，用于高效地收集、聚集和移动大量日志数据。Flume最主要的角色是 agent，其包括： source，channel，sink。角色简介sourcesource用于采集数据，source 是产生数据流的地方，同时 source 会将产生的数据流传输到 channelchannel连接 source 和sin...
复制链接

扫一扫