基于Flume的日志采集

本文介绍了大数据系统中的日志采集,包括系统访问日志、用户点击日志和其他业务日志。日志采集遵循三层结构:采集层、汇总层和存储层,以降低维护成本和对业务系统的影响。基于Flume的日志采集系统架构,采集层使用memory channel快速发送数据,汇总层使用file channel确保数据缓冲。具体配置示例中,Agent-1收集应用A日志并发送至HDFS和Kafka,Agent-2仅发送应用B日志至Kafka,Agent-3和Agent-4分别处理来自前两者的数据。
摘要由CSDN通过智能技术生成

大数据系统中通常需要采集的日志有:


系统访问日志
用户点击日志
其他业务日志(比如推荐系统的点击日志)


在收集日志的时候,一般分为三层结构:采集层、汇总层和存储层,而不是直接从采集端将数据发送到存储端,这样的好处有:


如果存储端如Hadoop集群、Kafka等需要停机维护或升级,对部署在应用服务器上的采集端没有影响,只需要汇总层做好数据的缓冲,在存储端恢复正常后继续写入数据。
采集层只负责数据的采集,由汇总层统一维护数据的路由逻辑(比如发送到hdfs还是kafka?),由于采集端所在的应用服务器一般数量较多,且会随着业务的扩展而不断增加,这种方式可以降低日志采集配置的维护成本,降低大数据应用对业务系统的影响


基于三层结构的flume日志采集系统架构一般如下图所示:


说明:
对于采集层agent,一般要求尽快将日志发送出去,避免在采集层堆积数据,所以使用memory的channel,sink统一使用avro;对于汇总层agent,要求可以尽量保证数据的缓冲,所以使用file channel,并且尽量调大容量,对于要求实时处理的数据,可以使用SSD的磁盘以提高处理速度,source统一使用avro。

各agent的配置如下:

【Agent-1】:位于采集层,用于收集应用A产生的日志,这些日志需要保存到HDFS中用于离线分析,同时也需要发送给Kafka用于实时的计算(如用户点击日志)。

a1.sources = src_1
a1.channels = ch_m_1
a1.sinks = sink_1 sink_2

# 配置 source:从指定目录读取日志数据
a1.sources.src_1.type = spooldir
a1.sources.src_1.channels = ch_m_1
a1.sources.src_1.spoolDir = /data/nginx/log/user_click/
a1.sources.src_1.includePattern=^.*$
# 日志数据一般是按照size或者时间切换,应用正在写入的文件不能读取,否则flume会报错,所以需要把这个文件排除掉。比如正在写入的是user.click.log,切换后的是user.click.log.yyyy.mm.dd.hh,则需要把user.click.log文件排除掉:
a1.sources.src_1.ignorePattern=^.*log$

# 配置 channel
a1.channels.ch_m_1.type = memory
# channel中可以缓存的event数量的最大值。可以根据单个event所占空间和可用的内存来评估可以缓存的event的最大数量
a1.channels.ch_m_1.capacity = 100000
# 一个事务中可批量接收或发送的event数量的最大值
a1.channels.ch_m_1.transactionCapacity = 5000

# 配置 sinks:多个sink节点,用于负载均衡
a1.sinks.sink_1.channel &#
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值