flume 通过 tail 方式写入hdfs

最新推荐文章于 2023-05-25 00:01:18 发布

烈叶

最新推荐文章于 2023-05-25 00:01:18 发布

阅读量287

点赞数

分类专栏： flume 文章标签： flume 大数据 hdfs

本文链接：https://blog.csdn.net/saibeifeng187/article/details/108095479

版权

flume 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 下载安装包并解压

下载地址：http://flume.apache.org/download.html

解压：tar zxvf apache-flume-1.6.0-bin.tar.gz

2 配置环境变量

vi ~/.bashrc

配置环境变量：

export FLUME_HOME=/hmaster/flume/apache-flume-1.6.0-bin
export FLUME_CONF_DIR=$FLUME_HOME/con

export PATH=$PATH:$FLUME_HOME/bin

让配置生效

source ..bashrc

配置flume-env.sh文件的JavaHome

export JAVA_HOME=/hmaster/javaenv/jdk1.6.0

配置内存

export JAVA_OPTS="-Xms100m -Xmx10000m -Dcom.sun.management.jmxremote"

3 flume 配置文件

#定义三大组件的名称
#指定源名称
agent.sources = seqGenSrc
#指定通道名称
agent.channels = memoryChannel
#指定接收器名称
agent.sinks = loggerSink

#配置source组件
#指定源类型为文件目录
agent.sources.seqGenSrc.type = exec
#以tail命令打开文件输出流
agent.sources.seqGenSrc.command = tail -f /opt/software/oracle-kafka-opengauss/data/data.txt

#指定事件不包括头信息
agent.sources.seqGenSrc.fileHeader = false

#配置拦截器
#agent.sources.seqGenSrc.interceptors = i1
#agent.sources.seqGenSrc.interceptors.i1.type =
#agent.sources.seqGenSrc.interceptors

#绑定通道，指定源将事件传递的通道，可以指定多个通道
agent.sources.seqGenSrc.channels = memoryChannel

#指定通道类型
agent.channels.memoryChannel.type = memory
#在通道中停留的最大事件数数据量大可以适当调节
agent.channels.memoryChannel.capacity = 1000000
#每次从源端拉取的事件数及给接收器的事件数
agent.channels.memoryChannel.transactionCapacity = 1000

#接收器类型
agent.sinks.loggerSink.type = hdfs
#定义hdfs的路径,是动态变化的
agent.sinks.loggerSink.hdfs.path = hdfs://node1:9000/user/hive/warehouse/on_log
#写入hdfs上文件的前缀名
agent.sinks.loggerSink.hdfs.filePrefix = log_%Y%m%d_%H
#写入hdfs上文件的后缀名
agent.sinks.loggerSink.hdfs.fileSuffix = .log
#HDFS操作允许的时间，比如hdfs文件的open，write，flush，close操作。单位是毫秒，默认值是10000，一小时为：3600000，这里稍微设置的大写
agent.sinks.loggerSink.hdfs.callTimeout = 7200000
#表示到了需要触发的时间时，是否要更新文件夹，true:表示要更新
agent.sinks.loggerSink.hdfs.round = true
#表示每隔10（时、分、秒）改变一下文件夹, 表示每隔value分钟改变一次(在0~24之间)
agent.sinks.loggerSink.hdfs.roundValue = 10
#按时间切换文件的单位，包含：second,minute,hour,默认：second
agent.sinks.loggerSink.hdfs.roundUnit = minute
#是否使用当地时间
agent.sinks.loggerSink.hdfs.useLocalTimeStamp = true
#写sequece文件格式，包含text，writable(默认)
agent.sinks.loggerSink.hdfs.writeFormat = Text
#生成的文件类型：包括SequenceFile,DataStream(普通文本),CompressedStram（压缩）
agent.sinks.loggerSink.hdfs.fileType = DataStream
#默认值是10，当events的数据量达到该数量的时候，将临时文件滚动成目标文件，如果设置成0，则表示不根据events数据来滚动文件；
agent.sinks.loggerSink.hdfs.rollCount = 0
#默认值是1024，当临时文件达到该大小（单位：byte）时，滚动成目标文件；如果设置成0则表示不根据临时文件大小来滚动文件
agent.sinks.loggerSink.hdfs.rollSize = 1024000
#默认值是30，hdfs间隔多长时间，将临时文件滚动成目标文件，单位：秒，如果设置成0则表示不根据时间来滚动文件；
agent.sinks.loggerSink.hdfs.rollInterval = 5
#默认值：100，每个批次刷新到hdfs上的events数量；
agent.sinks.loggerSink.hdfs.batchSize = 100
#默认值：10，hdfs sink启动的操作HDFS的线程数
agent.sinks.loggerSink.hdfs.threadsPoolSize = 10
#默认值：0，当目前被打开的临时文件在该参数指定的时间（秒）内，没有任何数据写入，则将该临时文件关闭并重命名成目标文件；
agent.sinks.loggerSink.hdfs.idleTimeout = 0
#默认值：HDFS副本数，写入HDFS文件块的最小副本数。该参数会影响文件的滚动配置，一般将该参数配置成1，才可以按照配置正确滚动文件。(待补充)
agent.sinks.loggerSink.hdfs.minBlockReplicas = 1
#绑定通道
agent.sinks.loggerSink.channel = memoryChannel

4 flume 启动（需要认证的带上括号内容）

./flume-ng agent --conf conf --conf-file /opt/software/flume/apache-flume-1.6.0-bin/conf/flume-log-hdfs.conf --name agent （-Djava.security.krb5.conf=/home/conf/krb5.conf ） -Dflume.root.logger=INFO,console

5 hive 创建外表

CREATE external TABLE on_log ( ip STRING, time STRING, user_id STRING,province STRING, phone_type STRING, machine_type STRING)
row format delimited FIELDS TERMINATED by "," stored as textfile;

6 验证环节

echo xxxx,2019-03-07 15:18:09,891,xxx,pc,p > ./data.txt

查询hive 中数据

烈叶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flume 通过 tail 方式写入hdfs

1下载安装包并解压下载地址：http://flume.apache.org/download.html解压：tar zxvf apache-flume-1.6.0-bin.tar.gz2 配置环境变量vi ~/.bashrc配置环境变量：export FLUME_HOME=/hmaster/flume/apache-flume-1.8.0-binexport FLUME_CONF_DIR=$FLUME_HOME/conexport PATH=$PATH:$FLUME...
复制链接

扫一扫