flink读取hdfs上多路径的文件

最新推荐文章于 2024-08-01 04:50:34 发布

fct2001140269

最新推荐文章于 2024-08-01 04:50:34 发布

阅读量6.6k

点赞数

分类专栏： Flink 大数据技术

本文链接：https://blog.csdn.net/fct2001140269/article/details/85334749

版权

大数据技术同时被 2 个专栏收录

89 篇文章 1 订阅

订阅专栏

Flink

22 篇文章 2 订阅

订阅专栏

flink上多路径的文件支持似乎不太友好，目前没有找到更好的办法。

在spark下可以使用的读取hdfs多路径的方式为：
/root/data/20170101/
/root/data/20170102/
/root/data/20170103/
…
/root/data/20170201/
/root/data/20170202/
…
比如读取二月份的所有数据可以使用如下
spark可以使用hdfs://hostname:9000/root/data/201702*/*
flink却不太支持该方式

自身采用的策略是：
循环读取拼接路径为path_i，（具体代码如下）

//初始化读取stData，赋值给union_st_data_resut
val union_st_data_resut: DataSet[Dsfuion] = stData

for (i <- 1 to 9) {
   var path_i: String = "hdfs://hostname:9000/root/data/201702"+i
   val st_data_tem: DataSet[String] = env.readTextFile(path_i)
   val stData_tem: DataSet[Dsfuion] = st_data_tem.map(x => {
        val data = x.split(",")
        (Dsfuion(data(0).toInt, data(1).toInt)
      }) 
   union_st_data_resut.union(stData_tem)
 }
//这样就可以对生成的union_st_data_resut路径下的所有数据合并结果进行操作了