一、Flume的定义:
flume是一个可分布式日志收集系统,为hadoop相关组件之一。
Flume可以采集文件,socket数据包(网络端口)、文件夹、kafka、mysql数据库等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。
二、特点
Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景
三、Flume安装部署
Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境
(一)、上传安装包到数据源所在节点上,然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz
(二)、根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)
(三)、指定采集方案配置文件,在相应的节点上启动flume agent
案例:
1.下载Flume
①Flume官网
Welcome to Apache Flume — Apache Flume
②选择版本
apache-flume-1.9.0-bin.tar.gz
③上传:rz
④解压:
-
tar -zxvf apache-flume-1.9.0-bin.tar.gz -C ../server/
⑤软连接
ln -s apache-flume-1.9.0-bin/ flume
2.配置环境变量
①修改配置文件
目录:vim /etc/profile
②内容
export FLUME_HOME=/opt/server/apache-flume-1.9.0-bin
export PATH=$PATH:$FLUME_HOME/bin
3.修改配置文件
①.切换目录:cd conf/
②.拷贝并变更配置文件名
cp flume-env.sh.template flume-env.sh
③修改配置文件
-
vim flume-env.sh
④.添加Java环境变量
export JAVA_HOME=/opt/server/jdk
⑤保存退出:wq
⑥查看flume安装版本
⑦编辑flume配置文件,并启动
切换目录: cd /opt/server/flume/conf
⑧编辑配置文件:vim nc-flume.conf
#命名 a1.sources = r1
a1.channels = c1
al.sinks = k1
#
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 6666
#
a1.channels.c1.type = memory
#
a1.sinks.k1.type = logger
#
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
⑨启动配置文件
flume-ng agent -n a1 --conf-file nc-flume.conf -Dflume.root.logger=INFO,console
⑩执行结果
测试配置文件
复制标签
安装Telent服务:yum install telnet -y
执行结果:
模拟数据发送:telnet localhost 44444
输入数据:hello flume
执行结果
谢谢观看