Flume之各种 Channel 的介绍及参数解析

最新推荐文章于 2023-04-19 19:16:11 发布

阿浩_

最新推荐文章于 2023-04-19 19:16:11 发布

阅读量6.6k

点赞数 3

分类专栏： Flume 文章标签： flume

本文链接：https://blog.csdn.net/weixin_40727028/article/details/123998376

版权

Flume 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

一、Channel介绍

Channel被设计为Event中转临时缓冲区，存储Source收集并且没有被Sink读取的Event，为平衡Source收集和Sink读取数据的速度，可视为Flume内部的消息队列。Channel线程安全并且具有事务性，支持source写失败重复写和sink读失败重复读等操作。

常用的Channel类型有Memory Channel、File Channel、KafkaChannel等。

1、Memory Channel

对比Channel, Memory Channel读写速度快，但是存储数据量小，Flume进程挂掉、服务器停机或者重启都会导致数据丢失。部署Flume Agent的线上服务器内存资源充足、不关心数据丢失的场景下可以使用。

① 配置参数解析：

type
    channel类型memory。

capacity
    默认值：100
    channel中存储的最大event数

transactionCapacity
    默认值：100
    一次事务中写入和读取的event最大数

keep-alive
    默认值：3
    在Channel中写入或读取event等待完成的超时时间，单位：秒
 
byteCapacityBufferPercentage
    默认值：20
    缓冲空间占Channel容量（byteCapacity）的百分比，为event中的头信息保留了空间，单位：百分比
    
byteCapacity
    默认值为Flume堆内存的80%
    Channel占用内存的最大容量，如果该参数设置为0则强制设置Channel占用内存为200G。

② 简单模板

# 命名 Agent 上的组件
agent_name.sources = source_name
agent_name.channels = channel_name
agent_name.sinks = sink_name

# source
agent_name.sources.source_name.type = avro
XXX
XXX

# channel
# channel中存储的最大event数为3000000，一次事务中可读取或添加的event数为20000
agent_name.channels.channel_name.type = memory
agent_name.channels.channel_name.capacity = 10000
agent_name.channels.channel_name.transactionCapacity = 10000

# sink
agent_name.sinks.sink_name.type = hdfs
XXX
XXX

# source | channel | sink 关联
agent_name.sources.source_name.channels = channel_name
agent_name.sinks.sink_name.channel = channel_name

2、File Channel

将 event 写入磁盘文件，与 Memory Channel 相比存储容量大，无数据丢失风险。File Channle 数据存储路径可以配置多磁盘文件路径，通过磁盘并行写入提高FileChannel 性能。Flume 将 Event 顺序写入到 File Channel 文件的末尾，在配置文件中通过设置 maxFileSize 参数配置数据文件大小，当被写入的文件大小达到上限时 Flume 会重新创建新的文件存储写入的 Event。当然数据文件数量也不会无限增长，当一个已关闭的只读数据文件中的 Event 被读取完成，并且 Sink 已经提交读取完成的事务，则 Flume 将删除存储该数据的文件。Flume 通过设置检查点和备份检查点实现在 Agent 重启之后快速将 File Channle 中的数据按顺序回放到内存中，保证在 Agent 失败重启后仍然能够快速安全地提供服务。

① 配置参数解析：

type
    channel类型为file

checkpointDir
    检查点目录，默认在启动flume用户目录下创建，建议单独配置磁盘路径
    
useDualCheckpoints
    默认值：false
    是否开启备份检查点，建议设置为true开启备份检查点，备份检查点的作用是当Agent意外出错导致写入检查点文件异常，在重新启动File Channel时通过备份检查点将数据回放到内存中，如果不开启备份检查点，在数据回放的过程中发现检查点文件异常会对所有数据进行全回放，全回放的过程相当耗时

backupCheckpointDir
    备份检查点目录，最好不要和检查点目录（checkpointDir）在同一块磁盘上

checkpointInterval
    默认值：30000
    每次写检查点的时间间隔，单位：毫秒

dataDirs：
    存储event信息磁盘存储路径，建议配置多块盘的多个路径，通过磁盘的并行写入来提高file channel性能，多个磁盘路径用逗号隔开

transactionCapacity
    默认值：10000
    一次事务中写入和读取的event最大数

maxFileSize
    默认值：2146435071
    每个数据文件的最大大小，单位：字节

minimumRequiredSpace
    磁盘路径最小剩余空间，如果磁盘剩余空间小于设置值，则不再写入数据

capacity
    filechannel可容纳的最大event数

keep-alive
    默认值：3
    在Channel中写入或读取event等待完成的超时时间，单位：秒

② 简单模板

# 命名 Agent 上的组件
agent_name.sources = source_name
agent_name.channels = channel_name
agent_name.sinks = sink_name

# source
agent_name.sources.source_name.type = avro
XXX
XXX

# channel
# channel中存储的最大event数为3000000，一次事务中可读取或添加的event数为20000
# 检查点路径为/usr/local/flume/checkpoint，数据存放路径为/data1, /data2，开启备份检查点，备份检查点路径为/data/flume/backup/checkpoint
agent_name.channels.channel_name.type = file
agent_name.channels.channel_name.dataDirs = ${log_path}/dataDir1, ${log_path}/dataDir2
agent_name.channels.channel_name.checkpointDir = ${exec_log_path}/stat_info_checkpointDir
agent_name.channels.channel_name.useDualCheckpoints = true 
agent_name.channels.channel_name.backupCheckpointDir = /data/flume/backup/checkpoint
agent_name.channels.channel_name.capacity = 3000000
agent_name.channels.channel_name.transactionCapacity = 20000
agent_name.channels.channel_name.keep-alive = 5

# sink
agent_name.sinks.sink_name.type = hdfs
XXX
XXX

# source | channel | sink 关联
agent_name.sources.source_name.channels = channel_name
agent_name.sinks.sink_name.channel = channel_name

3、Kafka Channel

将Kafka作为Channel存储，Kafka是分布式、可扩展、高容错、高吞吐的分布式系统，Kafka通过优秀的架构设计充分利用磁盘顺序特性，在廉价的硬件条件下完成高效的消息发布和订阅。

Memory Channel在使用的过程中受内存容量的限制不能缓存大量的消息，并且如果Memory Channel中的消息没来得及写入Sink，此时Agent出现故障就会造成数据丢失。File Channel虽然能够缓存更多的消息，但如果缓存下来的消息还没有写入Sink，此时Agent出现故障则File Channel中的消息不能被继续使用，直到该Agent重新恢复才能够继续使用File Channel中的消息。Kafka Channel相对于Memory Channel和File Channel存储容量更大、容错能力更强，弥补了其他两种Channel的短板，如果合理利用Kafka的性能，能够达到事半功倍的效果。

有了Kafka Channel可以在日志收集层只配置Source组件和Kafka Channel组件，不需要再配置Sink组件，减少了日志收集层启动的进程数并且有效降低服务器内存、磁盘等资源使用率，日志汇聚层可以只配置Kafka Channel和Sink，不需要再配置Source，减少日志汇聚层的进程数，这样的配置既能降低服务器的资源使用率又能减少Event在网络之间的传输，有效提高日志采集系统的性能。

① 配置参数解析：

type
    Kafka Channel类型，值为org.apache.flume.channel.kafka.KafkaChannel
    
kafka.bootstrap.servers
    Kafka broker列表，格式为ip1:port1,ip2:port2…，建议配置多个值提高容错能力，多个值之间用逗号隔开

kafka.topic:
    默认值：flume-channel
    topic名称

kafka.consumer.group.id
    默认值：flume
    Consumer组id, Kafka Channel使用 consumer.group.id 注册到Kafka，该值是连接kafka集群的唯一值，同一组内可以有多个Consumer，多个Consumer之间是互不干扰的，一个主题下的一条消息只能被同一组内的一个Consumer消费，其中的一个Consumer消费失败其他的Consumer会继续消费
    基于这个特性，可以有多个Agent的KafkaChannel使用相同的consumer.group.id，当一个Agent运行失败则其他Agent可以继续消费，很容易地提高了消息的容错能力

parseAsFlumeEvent
    默认值：true
    是否以Avro FlumeEvent模式写入到Kafka Channel中
    如果写入到Kafka Channel中主题的Producer只有Flume Source，则该参数应该设置为true
    如果有其他Producer也同时在向同一主题写数据则该参数应该设置为false
    Flume Source写入到Kafka的消息在Kafka外部需要使用flume-ng-sdk提供的org.apache. flume.source.avro.AvroFlumeEvent类解析

migrateZookeeperOffsets
    默认值：true
    是否迁移Zookeeper中存储的Consumer消费的偏移量到Kafka中，主要是为了兼容Kafka0.9以下版本的Kafka
    Kafka 0.9以下版本Consumer消费的偏移量保存在Zookeeper中
    Kafka 0.9之后的版本开始将偏移量保存到Kafka的一个主题中

pollTimeout
    默认值：500毫秒
    轮询超时时间

kafka.consumer.auto.offset.reset
    当Kafka中没有Consumer消费的初始偏移量或者当前偏移量在Kafka中不存在（比如数据已经被删除）情况下，Consumer选择从Kafka拉取消息的方式
    earliest表示从最早的偏移量开始拉取
    latest表示从最新的偏移量开始拉取
    none表示如果没有发现该Consumer组之前拉取的偏移量则抛出异常
    官方文档介绍 默认值是latest，但是从源码中查看是earliest

kafka.enable.auto.commit
    默认值：alse
    Consumer是否自动提交偏移量

Kafka Channel相关操作在org.apache.flume.channel.kafka包的KafkaChannel类定义，
kafka相关参数的默认值在org.apache.kafka.clients.CommonClientConfigs包中的KafkaChannel-Configuration中。
Kafka的通用配置参数在配置文件中都以“kafka.”为前缀，针对Producer或者Consumer的相关配置以“kafka.producer. ”或者“kafka.consumer. ”为前缀，
源码 KafkaChannelConfiguration 中相关默认配置参数定义如下：

KAFKA_PREFIX = "kafka.";
KAFKA_CONSUMER_PREFIX = KAFKA_PREFIX + "consumer.";
KAFKA_PRODUCER_PREFIX = KAFKA_PREFIX + "producer.";
DEFAULT_ACKS = "all";
DEFAULT_KEY_SERIALIZER ="org.apache.kafka.common.serialization.StringSerializer";
DEFAULT_VALUE_SERIAIZER ="org.apache.kafka.common.serialization.ByteArraySerializer";
DEFAULT_KEY_DESERIALIZER ="org.apache.kafka.common.serialization.StringDeserializer";
DEFAULT_VALUE_DESERIAIZER ="org.apache.kafka.common.serialization.ByteArrayDeserializer";
TOPIC_CONFIG = KAFKA_PREFIX + "topic";
BOOTSTRAP_SERVERS_CONFIG =KAFKA_PREFIX + CommonClientConfigs.BOOTSTRAP_SERVERS_CONFIG;
DEFAULT_TOPIC = "flume-channel";
DEFAULT_GROUP_ID = "flume";
POLL_TIMEOUT = KAFKA_PREFIX + "pollTimeout";
DEFAULT_POLL_TIMEOUT = 500;
KEY_HEADER = "key";
DEFAULT_AUTO_OFFSET_RESET = "earliest";
PARSE_AS_FLUME_EVENT = "parseAsFlumeEvent";
DEFAULT_PARSE_AS_FLUME_EVENT = true;
PARTITION_HEADER_NAME = "partitionIdHeader";
STATIC_PARTITION_CONF = "defaultPartitionId";
MIGRATE_ZOOKEEPER_OFFSETS = "migrateZookeeperOffsets";
public static final boolean DEFAULT_MIGRATE_ZOOKEEPER_OFFSETS = true;/＊＊＊ Flume1.7以前版本默认参数＊＊＊＊/
BROKER_LIST_KEY = "metadata.broker.list";
REQUIRED_ACKS_KEY = "request.required.acks";
BROKER_LIST_FLUME_KEY = "brokerList";
//TOPIC = "topic";
GROUP_ID_FLUME = "groupId";
AUTO_COMMIT_ENABLED = "auto.commit.enable";
ZOOKEEPER_CONNECT = "zookeeper.connect";
ZOOKEEPER_CONNECT_FLUME_KEY = "zookeeperConnect";
TIMEOUT = "timeout";
DEFAULT_TIMEOUT = "100";
CONSUMER_TIMEOUT = "consumer.timeout.ms";
READ_SMALLEST_OFFSET = "readSmallestOffset";
DEFAULT_READ_SMALLEST_OFFSET = false;

② 简单模板

# 命名 Agent 上的组件
agent_name.channels = channel_name
agent_name.sinks = sink_name

# channel
agent_name.channels.channel_name.type = org.apache.flume.channel.kafka.KafkaChannel
agent_name.channels.channel_name.kafka.bootstrap.servers = zkServer01:9092, zkServer02:9092 
agent_name.channels.channel_name.kafka.topic = test_channel
agent_name.channels.channel_name.kafka.consumer.group.id = test-consumer

# sink
agent_name.sinks.sink_name.type = hdfs
XXX
XXX

# source | channel | sink 关联
agent_name.sources.source_name.channels = channel_name
agent_name.sinks.sink_name.channel = channel_name

说明：agent_name 没有配置Source，只配置了Channel和Sink，使用的Channel类型为Kafka Channel，主题名称为“test_channel”, consumer组id为“test-consumer”, Sink类型为 hdfs 滚动生成文件，对接的Channel为KafkaChannel channel_name。

阿浩_

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Flume之各种 Channel 的介绍及参数解析

一、Channel介绍Channel被设计为Event中转临时缓冲区，存储Source收集并且没有被Sink读取的Event，为平衡Source收集和Sink读取数据的速度，可视为Flume内部的消息队列。Channel线程安全并且具有事务性，支持source写失败重复写和sink读失败重复读等操作。常用的Channel类型有Memory Channel、File Channel、KafkaChannel等。1、Memory Channel对比Channel, Memory Channel读写速度快
复制链接

扫一扫