Flume-将数据写入动态分区表

最新推荐文章于 2023-11-21 10:48:35 发布

TracyGao01

最新推荐文章于 2023-11-21 10:48:35 发布

阅读量4.9k

点赞数 1

分类专栏： linux flume hive shell 文章标签： Linux flume hive shell

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012551524/article/details/70148347

版权

linux 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

一、场景描述

实时监控文件目录，将目录中的实时产生的数据文件（文件内容非动态）写入动态分区，分区为3级（设备ID/文件产生日期/文件产生的时间（h））.文件名格式如下（日期+时间+产品ID.txt）

二、主要存在的难点

由于flume只支持传入一些简单的参数变量（时间/日期/文件名等），所以这里我们如果想动态的识别我们的文件名并直接生成sink的路径及相应文件名有困难。

三、解决方法

这里我们依然选用hdfs sink来作数据消费，但要稍微改变一部分源码，来达到我们通过识别文件名来确定输出路径的目的，步骤如下：

（1）下载apache-flume-1.7.0-src源码（官网直接下载）

（2）打开cmd编译源码（这里用的mvn版本号为3.3.9，最好用3.3版本以上的版本，我自己用3.2出啦点问题）

编译小提示：

maven确实是一个好东西，但是在国内下载官方仓库的jar却是个大问题，速度不敢恭维，现在oschina的国内maven镜像服务已关闭，无奈之下只能另寻门路。

今天突然发现了阿里云maven国内镜像，修改完以后速度飞一般的感觉。

修改方法：在~/.m2目录下的settings.xml文件中，（如果该文件不存在，则需要从maven/conf目录下拷贝一份），找到<mirrors>标签，添加如下子标签：

<mirror>

<id>alimaven</id>

<name>aliyun maven</name>

<url>http://maven.aliyun.com/nexus/content/groups/public/</url>

<mirrorOf>central</mirrorOf>

</mirror>

编译成功后如下：

（3）把项目导入eclipse做修改

下图为修改后代码并且在环境上执行通过并写入后的代码，主要修改flume-hdfs-sink下的HDFSEentSink.java文件，主要修改process（）方法，我们通过识别文件名来拼出hdfs的文件路径来达到动态识别文件名并创建动态hdfs路径的目的：

修改之后直接重新将子项目flume-hdfs-sink打包为flume-hdfs-sink-1.7.0.jar，最后直接去环境下替换掉原来的jar包（路径如下，记得将原来的jar包做备份）：

到这里我们对flume的一些小改动基本结束。

四、测试

（1）创建flume配置文件，简单的flume配置文件如下：

#agent1表示代理名称

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1

#Spooling Directory是监控指定文件夹中新文件的变化，一旦新文件出现，就解析该文件内容，然后写入到channle。写入完成后，标记该文件已完成或者删除该文件。

#配置source1

agent1.sources.source1.type=spooldir

agent1.sources.source1.spoolDir=/tracy/flume_test

agent1.sources.source1.basenameHeader=true

agent1.sources.source1.basenameHeaderKey=fileName

agent1.sources.source1.deletePolicy=immediate

#batchSize是针对Source和Sink提出的一个概念，它用来限制source和sink对event批量处理的

agent1.sources.source1.batchSize=1000

#channel存event的最大数量

a1.channels.c1.capacity = 1000

#每次从source到channel或从channel到sink的event最大的吞吐量

a1.channels.c1.transactionCapacity = 100

#channle满载的情况下30s后抛出异常

agent1.channels.ch1.keep-alive = 30

agent1.sources.source1.request-timeout=2000

agent1.sources.source1.connect-timeout=3000

agent1.sources.source1.channels=channel1

#加拦截器

#agent1.sources.source1.interceptors = i1

#时间戳拦截器

#agent1.sources.source1.interceptors.i1.type = timestamp

#配置channel1

agent1.channels.channel1.type=file

agent1.channels.channel1.checkpointDir=/tracy/flume_test1

agent1.channels.channel1.dataDirs=/tracy/flume_test2

#配置sink1

agent1.sinks.sink1.type=hdfs

agent1.sinks.sink1.hdfs.path=hdfs://hadoop.nameNode1:9000/user/hive/warehouse/test.db/info_flume_data_dt1/

#DataStream类似于textfile

agent1.sinks.sink1.hdfs.fileType=DataStream

#只写入event的body部分

agent1.sinks.sink1.hdfs.writeFormat=TEXT

agent1.sinks.sink1.hdfs.batchSize = 1

agent1.sinks.sink1.hdfs.rollInterval = 1

agent1.sinks.sink1.hdfs.rollcount = 1

agent1.sinks.sink1.hdfs.rollsize = 0

agent1.sinks.sink1.hdfs.inUsePrefix=t

agent1.sinks.sink1.hdfs.inUseSuffix=.temp

agent1.sinks.sink1.channel=channel1

agent1.sinks.sink1.hdfs.filePrefix=%{fileName}

（2）事先在Hive建最终要落地的分区表如下：

DROP TABLE IF EXISTS INFO_FLUME_DATA_DT1;

CREATE TABLE IF NOT EXISTS INFO_FLUME_DATA_DT1(

t_date string comment '时间',

detail string comment '参数'

) PARTITIONED BY (product string,l_date date,houra string)

--clustered by (t_date) sorted by(detail) into 4 buckets

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

LINES TERMINATED BY '\n'

STORED AS TEXTFILE;

（4）启动我们的单节点flume进行测试：

./flume-ng agent -n agent1 -c ../conf -f ../conf/flume-conf-hdfs.properties -Dflume.root.logger=DEBUG,console

（5）往flume监控的目录放入文件：

Flume控制台输出如下：

这里可以看到我们代码中打桩的位置，路径文件名没什么问题，再去hdfs路径下看下文件是否写入：

没问题

（6）查看hive表数据情况：

这里我们要注意，要想我们在hdfs的数据在hive表可见，我们首先要alter一下分区：

ALTER TABLE INFO_FLUME_DATA_DT1

ADD PARTITION (product='02TE04-3',l_date='2017-03-13',houra='22');

最后去hive表看数据：

没问题。

实际情境下我们不可能每天手动去添加分区，每天跑个脚本把分区添加好就ok，如下(举例)：

# !/bin/sh

for((i=0;i<24;i++))

do

beeline -u jdbc:hive2:// --verbose=true -e "ALTER TABLE test.INFO_FLUME_DATA_DT1 ADD PARTITION (product='02TE04-4',l_date='`date +"%Y-%m-%d"`',houra='$i')"

echo $i

done

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Flume-将数据写入动态分区表

一、场景描述实时监控文件目录，将目录中的实时产生的数据文件（文件内容非动态）写入动态分区，分区为3级（设备ID/文件产生日期/文件产生的时间（h））.文件名格式如下（日期+时间+产品ID.txt）二、主要存在的难点由于flume只支持传入一些简单的参数变量（时间/日期/文件名等），所以这里我们如果想动态的识别我们的文件名并直接生成sink的路径及相应文件名有困难。三、解决方法...
复制链接

扫一扫

专栏目录

博客等级

码龄11年

博客专家认证

220
原创

143
点赞

570
收藏

312
粉丝

关注

私信

热门文章

分类专栏

最新评论

phoenix error: Unable to find cached index metadata
G3-平头哥: 并没有啥用
ClickHouse入门：表引擎-AggregatingMergeTree
小鹿在线自学编程: 应该是普通的MergeTree就好了吧？
ClickHouse入门：表引擎-AggregatingMergeTree
小鹿在线自学编程: create table test_table ( shop_code String, product_code String, name String, out_count Int, write_date DateTime ) ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(write_date) ORDER BY (shop_code,product_code); 这写错了吧？基础表用AggregateMerge Tree?
Hue:Trino配置
如果能重来666: 我也报这个解决了嘛
ClickHouse入门：表引擎-VersionedCollapsingMergeTree
ldh_loky: 博主你好，标识数据状态的sign列的列值，一定需要手动赋值插入吗？那这样的话，插入前不是需要预先知道库内是否有历史数据？那这个引擎用起来不是很局限吗？引擎本身不可以自动判断哪些数据是过期旧版本的吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。