flume flume采集目录到HDFS

最新推荐文章于 2024-05-11 16:00:09 发布

爱吃甜食_

最新推荐文章于 2024-05-11 16:00:09 发布

阅读量1.8k

点赞数

分类专栏： flume

本文链接：https://blog.csdn.net/a3125504x/article/details/108217990

版权

flume采集目录到HDFS

采集新增文件到HDFS
采集指定文件新增内容到HDFS
- flume的配置文件
- agent
- source
- channel
- sink
- 整合后
官网地址

采集新增文件到HDFS

此案例为了方便观察采集结果，设置的采集频率都比较高，实际应用中频率不应该这么高
同时通过大小和实际控制临时文件滚动生成目标文件

结构示意图
采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去
需求分析：
根据需求，首先定义以下3大要素
数据源组件，即source ——监控文件目录 : spooldir
spooldir特性：
1.监视一个目录，只要目录中出现新文件，就会采集文件中的内容
2.采集完成的文件，会被agent自动添加一个后缀：COMPLETED
3.所监视的目录中不允许重复出现相同文件名的文件
下沉组件，即sink——HDFS文件系统 : hdfs sink
通道组件，即channel——可用file channel 也可以用内存channel

flume配置文件

cd  /bg/apache-flume-1.6.0-cdh5.14.2-bin/conf
mkdir -p /bg/dirfile
vim spooldir.conf

定义agent内组件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

定义source

# Describe/configure the source
##注意：不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir
## source类型为spooldir
a1.sources.r1.spoolDir = /test/dirfile
## 是否添加文件的绝对路径到event的header中，默认是false
a1.sources.r1.fileHeader = true

注意：flume中重复添加相同名称的文件，flume会崩溃无法继续运行。

定义channel

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
## channel的容量：1000条数据
a1.channels.c1.capacity = 1000
## 一次从source拿去或者输出到sink的最大容量
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注意：

使用memory channel当数据宕机时，channel中未传送至sink端的数据会丢失。
可以使用file channel代替。当flume重启启动后，会读取file channel内的数据
也可以不定义sink 直接将数据输出到kafka的topic中

定义sink

# Describe the sink
## 定义输出类型
a1.sinks.k1.type = hdfs
## channel需要和agent设置中的名称保持一致
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://node01:8020/spooldir/files/%y-%m-%d/%H%M/
## 生成的文件名前缀，默认是FlumeData
a1.sinks.k1.hdfs.filePrefix = events-

## 以下3个round相关参数设置用来控制多久生成一个文件
## 时间戳是否四舍五入，默认false
a1.sinks.k1.hdfs.round = true
## 时间上进行舍弃的值
a1.sinks.k1.hdfs.roundValue = 10
## 时间上进行舍弃的单位
a1.sinks.k1.hdfs.roundUnit = minute

## 设置true则使用本地时间生成文件 而不是e

最低0.47元/天解锁文章

爱吃甜食_

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
flume flume采集目录到HDFS

flume采集目录到HDFS采集新增文件到HDFSflume配置文件采集指定文件新增内容到HDFS采集新增文件到HDFS结构示意图采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去需求分析：根据需求，首先定义以下3大要素数据源组件，即source ——监控文件目录 : spooldirspooldir特性：1.监视一个目录，只要目录中出现新文件，就会采集文件中的内容2.采集完成的文件，会被agent自动添加一个后缀：COMPLETE
复制链接

扫一扫

专栏目录