1.理论基础
# 列出agent的 sources, sinks and channels
<Agent>.sources = <Source>
<Agent>.sinks = <Sink>
<Agent>.channels = <Channel1> <Channel2>
# 设置source的channel
<Agent>.sources.<Source>.channels = <Channel1> <Channel2> ...
# 设置sink的channel
<Agent>.sinks.<Sink>.channel = <Channel1>
需要注意的是:
- 一个source可以对接多个channel
- 一个sink只能对接一个channel
实现一个数据流的需求关键点就在于source和sink类型的选择
—> source和link的类型选择可以查看上一篇文章:Flume 理论
更详细的可查看官方文档
source,channel,sink 常用类型快速查看
Source类型 | 说明 |
---|---|
Avro | 支持avro 协议 |
Spooling | 监听本地文件夹,把新增的文件采集到flume |
netcat | 从网络端口接受文本数据(多用于测试调试) |
kafka | 用于从kafka中读取数据 |
—————————— | ———————————————————————— |
Channel类型 | 说明 |
Memory | Event 数据存储在内存中 |
File | Event数据存储在磁盘文件中 |
—————————— | ———————————————————————— |
Sink 类型 | 说明 |
logger | 把数据输出成logger日志(测试调试) |
hdfs | 把数据写入hdfs |
avro | 发送到此接收器的flume event将转化为avro event 并发送至配置的主机名:端口号 |
kafka | 将数据发送至kafka |
2. 示例一
需求:监控master节点8888端口的写入数据并输出到logger中。
分析:
- Source:数据流入,通过监控给定端口获取流数据,因此Source可选类型netcat
- Sink:数据流出,需求要求输出到logger中,因此可选logger类型
另外还需要安装两个工具:nc,telnet
centerOS 可以分别执行:yum install nc 和yum install telnet 进行安装。
步骤:
- 1.新建任意目录,目录下新建文件:nc_to_logger.conf
- 2.配置文件代码如下
# 列出agent的source,channel,sink
a1.sources = s1
a1.channels = c1
a1.sinks = k1
#---------------------------
# 设置source的属性
a1.sources.s1.type = netcat
a1.sources.s1.bind = master
a1.sources.s1.port = 8888
# 设置channel的属性
a1.channels.c1.type = memory
# 设置sinks的type
a1.sinks.k1.type = logger
#-----------------------------
# 设置source的channel
a1.sources.s1.channels = c1
# 设置sink的channel
a1.sinks.k1.channel = c1
- 3.运行
flume-ng agent -c conf -f nc_to_logger.conf -n a1 -Dflume.root.logger=INFO,console
- 测试
前期准备:所有节点都配置好host,两台测试节点都需安装nc,telnet
另一台机器上命令行输入:telnet master 8888
随意输入字符,换行,看监控的master机器上是否有logger输出
结果如下:
slave1 节点:
master节点:
Event是Flume数据流传输中的基本数据单元,Source组件采集到数据将其包装成Event,推入Channel,Channel 又将Event 传输到Sink,最后由Sink进行输出。
3.实例二
需求:监控目录/usr/local/test/myFlumeTest/SpoolingDir,当有新增文件时将其写入hdfs中。
分析:
- Source:数据流入,通过监控指定目录获取数据,因此Source可选类型spooling
- Sink:数据流出,需求要求输出到hdfs中,因此选择hdfs类型
步骤:
- 1.写配置文件spooling_to_hdfs.conf,代码如下
```
# 列出agent的source,channel,sink
a1.sources = s1
a1.channels = c1
a1.sinks = k1
#---------------------------
# 设置source的属性
a1.sources.s1.type = spooldir
a1.sources.s1.spoolDir = /usr/local/test/myFlumeTest/SpoolingDir
# 设置channel的属性
a1.channels.c1.type = memory
# 设置sinks的type
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /spoolingDir
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat = Text
#-----------------------------
# 设置source的channel
a1.sources.s1.channels = c1
# 设置sink的channel
a1.sinks.k1.channel = c1
```
- 2.运行
flume-ng agent -c conf -f spooling_to_hdfs.conf -n a1 -Dflume.root.logger=INFO,console
- 3.测试
- 1.模拟文件新增:在其他目录新建文件,随意写入内容,复制到监控的目录下。
- 2.查看hdfs文件目录,查看文件是否写入
![](http://ok7mrfi5x.bkt.clouddn.com/flume_test_04.png)
可以看到hdfs上新增了文件:/spoolingDir/FlumeData.1530794689076,打印查看结果如下
更多示例可自行进行测试:Source类型,Sink类型两两组合。
关于各种类型的参数设置可参考官方文档中的说明:
如:
Spooling Directory Source相关属性:
学会看文档也是一项很重要的技能啊:)