flink读取hdfs上多路径的文件

最新推荐文章于 2023-09-20 18:07:06 发布

zxfBdd

最新推荐文章于 2023-09-20 18:07:06 发布

阅读量2.5k

点赞数

分类专栏： flink

原文链接：https://blog.csdn.net/fct2001140269/article/details/85334749

版权

flink 专栏收录该内容

93 篇文章 9 订阅

订阅专栏

flink上多路径的文件支持似乎不太友好，目前没有找到更好的办法。

在spark下可以使用的读取hdfs多路径的方式为：
/root/data/20170101/
/root/data/20170102/
/root/data/20170103/
…
/root/data/20170201/
/root/data/20170202/
…
比如读取二月份的所有数据可以使用如下
spark可以使用hdfs://hostname:9000/root/data/201702*/*
flink却不太支持该方式

自身采用的策略是：
循环读取拼接路径为path_i，（具体代码如下）

//初始化读取stData，赋值给union_st_data_resut
val union_st_data_resut: DataSet[Dsfuion] = stData

for (i <- 1 to 9) {
var path_i: String = "hdfs://hostname:9000/root/data/201702"+i
val st_data_tem: DataSet[String] = env.readTextFile(path_i)
val stData_tem: DataSet[Dsfuion] = st_data_tem.map(x => {
val data = x.split(",")
(Dsfuion(data(0).toInt, data(1).toInt)
})
union_st_data_resut.union(stData_tem)
}
//这样就可以对生成的union_st_data_resut路径下的所有数据合并结果进行操作了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flink读取hdfs上多路径的文件

flink上多路径的文件支持似乎不太友好，目前没有找到更好的办法。在spark下可以使用的读取hdfs多路径的方式为：/root/data/20170101//root/data/20170102//root/data/20170103/…/root/data/20170201//root/data/20170202/…比如读取二月份的所有数据可以使用如下spark可以使用...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。