【Flume】Flume原理简述及示例实践

1. Flume是什么

       Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统,能够有效的收集、聚合、移动大量的日志数据。通俗来说就是一个靠谱、方便的日志采集工具。同时,他也是目前大数据领域数据采集最常用的一个框架。

2. Flume三大组件

在这里插入图片描述
       从图中可以看到Flume从Web网站获取信息并上传到HDFS,其组件主要包含Source、Channel和Sink。

  • Source:负责从数据源读取信息,根据读取的数据源类型不同,分为很多类,例如从文件读取数据的Source、从网站日志读取数据的Source等。常用的Source组件有:
    • Exec Source:实现文件监控,可以实时监控文件中的新增内容,类似于Linux中的tail -f效果;
    • NetCat TCP/UDP Source:采集指定端口(TCP、UDP)的数据,可以读取流经端口的每一行数据;
    • Spooling Directory Source:采集文件夹里新增的文件;
    • Kafka Source:从Kafka消息队列中采集数据。
  • Channel:负责临时存储数据,Source会将读取到的信息临时存储在这里,根据存储方式的不同,有很多类Channel,例如基于内存的Channel、基于文件的Channel等。常用的Channel组件有:
    • Memory Channel:使用内存作为数据的存储。优点是效率高,因为就不涉及磁盘IO;缺点有两个:可能会丢数据,如果Flume的agent挂了,那么channel中的数据就丢失了;内存是有限的,会存在内存不够用的情况。
    • File Channel:使用文件来作为数据的存储。优点是数据不会丢失;缺点是效率相对内存来说会有点慢,但是这个慢并没有我们想象中的那么慢,所以这个也是比较常用的一种Channel。
    • Spillable Memory Channel:使用内存和文件作为数据存储,即先把数据存到内存中,如果内存中数据达到阈值再flush到文件中。优点:解决了内存不够用的问题;缺点:还是存在数据丢失的风险。
  • Sink:负责将数据从Channel读取出来并写到目的地,根据写入的地方不同有很多种Sink,例如写入文件的Sink、写入HDFS的Sink等。Channel中的数据直到进入目的地才会被删除,当Sink写入目的地失败后,可以自动重写,不会造成数据丢失,这是有事务保证的。常用的Sink组件有:
    • Logger Sink:将数据作为日志处理,可以选择打印到控制台或者写到文件中,这个主要在测试的时候使用;
    • HDFS Sink:将数据传输到HDFS中,这个是比较常见的,主要针对离线计算的场景
    • Kafka Sink:将数据发送到kafka消息队列中,这个也是比较常见的,主要针对实时计算场景,数据不落盘,实时传输,最后使用实时计算框架直接处理。

3. Flume高级应用场景

3.1 多路复用

在这里插入图片描述
       图中共有两个Agent,表示我们启动了2个Flume的代理,或者可以理解为了启动了2个Flume的进程。首先看左边这个Agent,给他起个名字叫 foo,有一个Source,Source后面接了3个Channel,表示Source读取到的数据会重复发送给每个Channel,每个Channel中的数据都是一样的,针对每个Channel都接了一个Sink,这三个Sink负责读取对应Channel中的数据,并且把数据输出到不同的目的地,Sink1负责把数据写到HDFS中,Sink2负责把数据写到一个Java消息服务数据队列中,Sink3负责把数据写给另一个Agent。
       Sink3把数据输出到了Agent bar中,在Agent bar中同样有三个组件,Source组件获取Sink3发送过来的数据,然后把数据临时存储到自己的Channel4中,最终再通过Sink组件把数据写到其他地方,把采集到的一份数据重复输出到不同的目的地中。

3.2 整合

在这里插入图片描述
       图中共启动了四个Agent,左边的三个Agent都是负责采集对应web服务器中的日志数据,数据采集过来之后统一发送给Agent4,最后Agent4进行统一汇总,最终写入HDFS。
       这种架构的好处是后期如果要修改最终数据的输出目的地,只需要修改Agent4中的Sink即可,不需要修改Agent1、2、3。但是这种架构也有弊端:如果有很多个Agent同时向Agent4写数据,那么Agent4会出现性能瓶颈,导致数据处理过慢;这种架构还存在单点故障问题,如果Agent4挂了,那么所有的数据都断了。不过这些问题可以通过Flume中的负载均衡和故障转移机制解决,会在后续的博客中详细分析。

4. 示例实践

需求为配置Flume,使其可以接收通过TCP协议传输的信息并打印到控制台。

4.1 配置

       Flume的运行不需要编写代码,但需要提前写好配置,由于每种组件的参数较多,因此一般直接查阅官网文档就可以。下面这段配置,应该写到Flume的conf目录下,我命名为example.conf。
       这段代码的含义是:配置一个名为a1的Agent,将Source组件命名为r1,Sink组件命名为k1,Channel组件命名为c1。使用NetCat TCP Source组件,监听localhost的44444端口;使用Logger Sink组件;使用Memory Channel组件,Channel中最多存储1000个event,一次事务中写入和读取的event最大数为100;最后设置Source连接的Channel以及Sink连接的Channel。

# example.conf: A single-node Flume configuration

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

4.2 运行

       运行代码为:

bin/flume-ng agent --conf conf --conf-file conf/example.conf --name a1 -Dflume.root.logger=INFO,console

       其中--conf指定配置目录,--conf-file指定配置文件,--name指定Agent名称,-D指定特殊参数,如flume.root.logger=INFO,console表示输出结果到控制台,这样便于测试时查看结果。

4.2.1 运行结果输出

       使用telnet命令向localhost的44444端口发送信息,启动Flume服务后,复制一个当前虚拟机的命令窗口,输入:telnet localhost 44444,然后键入要发送的信息即可,如下:

  1. 发送信息"hello world"(字符串"OK"是系统打印的)。
    在这里插入图片描述
  2. Flume接收信息"hello world"并打印在控制台上。
    在这里插入图片描述

4.2.2 设置后台运行

       由于默认Flume服务会在控制台运行且输入"Ctrl+C"后会终止服务(不像Hadoop的MapReduce会偷偷在后台继续运行),因此如果要设置后台运行的话需要在运行命令后面加上Linux的&命令,并且在前面使用nohup命令保证关闭Shell窗口后命令仍然可以运行。完整命令为:

nohup bin/flume-ng agent --conf conf --conf-file conf/example.conf --name a1 -Dflume.root.logger=INFO,console &
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

chaoql

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值