flume 采集数据到hdfs

最新推荐文章于 2024-01-09 22:07:52 发布

u013887751

最新推荐文章于 2024-01-09 22:07:52 发布

阅读量1.5k

点赞数

分类专栏：大数据文章标签： flume hdfs

本文链接：https://blog.csdn.net/u013887751/article/details/49007807

版权

大数据专栏收录该内容

12 篇文章 0 订阅

订阅专栏

前言：在两台机器上做flume 采集数据实验：hadoop05上安装flume 1.5.0版本,hadoop07上安装hadoop2.2.0版本

一、安装
前提:flume是依赖jdk,所以需要安装jdk,这里就不多说，jdk 安装目录/usr/local/jdk1.6.0_45
下载安装文件：apache-flume-1.5.0-bin.tar.gz，上传到linux 目录：/usr/local/
解压文件tar -zvxf apache-flume-1.5.0-bin.tar.gz 得到apache-flume-1.5.0-bin ，以下称为FLUME_HOME
二、修改配置文件
cd apache-flume-1.5.0-bin/conf 下
mv flume-env.sh.template flume-env.sh
vim flume-env.sh 添加jdk 配置：JAVA_HOME=/usr/local/jdk1.6.0_45 保存退出
三、建立配置文件，这个配置文件是flume ：source、channel、sink三大组件的配置，取名为example.conf ，内容如下：
#定义agent名， source、channel、sink的名称
example.sources = r1
example.channels = c1
example.sinks = k1

#具体定义source
example.sources.r1.type = spooldir
example.sources.r1.spoolDir = /home/hadoop/logs

#具体定义channel
example.channels.c1.type = memory
example.channels.c1.capacity = 10000
example.channels.c1.transactionCapacity = 100

#定义拦截器，为消息添加时间戳
example.sources.r1.interceptors = i1
example.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink
example.sinks.k1.type = hdfs
example.sinks.k1.hdfs.path = hdfs://hadoop07:9000/flume/%Y%m%d
example.sinks.k1.hdfs.filePrefix = events-
example.sinks.k1.hdfs.fileType = DataStream
#不按照条数生成文件
example.sinks.k1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
example.sinks.k1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
example.sinks.k1.hdfs.rollInterval = 60

#组装source、channel、sink
example.sources.r1.channels = c1
example.sinks.k1.channel = c1

jiang
四、拷贝需要hadoop 的jar包，因为是收集数据到hdfs，需要调用到hdfs 客户端接口，所以需要以下几个jar
在hadoop 解压之后的相对路径：(这里是使用hadoop2.2.0版本)
--hadoop-2.2.0/share/hadoop
--common/hadoop-common-2.2.0.jar
--common/lib/common-configuration-1.6.jar
--common/lib/hadoop-auth-2.2.0.jar
--hdfs/hadoop-hdfs-2.2.0.jar
到${FLUME_HOME}/lib下
五、通知flume 知道hadoop的信息
要让flume 知道hadoop的配置，所以需要拷贝hadoop 的两个核心配置文件：core-site.xml 和hdfs-site.xml到
${FLUME_HOME}/conf下

六、启动hadoop
所有的配置都已经准备好，启动hadoop07 机器上的hadoop ,根据example.conf 中的配置而定，我这里用的是hadoop07，为了防止错误，建立我们本机的监听目录：
/home/hadoop/logs，
七、启动flume
所用的前提已经准备好，此时最后一步，启动flume:
${FLUME_HOME}/bin/flume-ng agent -n example -c conf -f conf/exmple.conf -Dflume.root.logger=INFO,console

擦数说明：agent -n example 代理对象
-c conf 配置文件的地址目录
-f conf/exmple.conf 指制定配置文件
-Dflume.root.logger=INFO,console 日志级别为INFO ,打印在控制台上

八、校验
将拷贝文件 cp /data/flume_test.txt /home/hadoop/logs 下
flume 会将其采取，到hdfs 中查看是否有多了一个flume 文件