Spark递归读取文件夹删除HDFS文件

最新推荐文章于 2023-08-14 19:52:21 发布

向阳飞行

最新推荐文章于 2023-08-14 19:52:21 发布

阅读量2.1k

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bigdataprimary/article/details/88061063

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取，删除输出路径的需求，特此记录一次

递归读取文件：

sc
 .hadoopConfiguration
 .setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true)

删除已存在的路径：

def deleteOutPutPath(sc: SparkContext,outputPath: String):Unit={
    val path = new Path(outputPath)
    val hadoopConf = sc.hadoopConfiguration
    val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
    if(hdfs.exists(path)){
      hdfs.delete(path,true)
    }
  }

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark递归读取文件夹删除HDFS文件

在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取，删除输出路径的需求，特此记录一次递归读取文件：sc .hadoopConfiguration .setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true)删除已存在的路径：def deleteOutPutPath(sc: Sp...
复制链接

扫一扫

专栏目录

向阳飞行 CSDN认证博客专家 CSDN认证企业博客

码龄6年

64: 原创

8万+: 周排名

72万+: 总排名

18万+: 访问

: 等级

2280: 积分

41: 粉丝

57: 获赞

26: 评论

313: 收藏

私信

关注

热门文章

分类专栏

数仓 4篇
DataX 1篇
Python 2篇
hive 22篇
hbase
spark 10篇
maven 2篇
pythonLearn 10篇
impala 2篇
yarn进群问题 2篇
杂记 5篇
MySQL 2篇
scala 2篇
机器学习笔记 1篇
oozie 1篇
集群 3篇
kudu 3篇

最新评论

Excel数据导入hive
如意机反光镜裸: 这个图形化自动导入工具可以一键导入： ExcelToDatabae: https://blog.csdn.net/qq_37955852/article/details/122488507
hive外部表指向多个文件/文件夹
qq_45318965: 帮大忙了
计算连续登陆最大天数
weixin_45784486: 有个笔误好像应该是partition by 而不是 partitioned by~ 感谢写的真好！
Python 缺省参数，可变参数
m0_74055193: 你好，test3/4写的不对
lead窗口函数
甜加冰6654: 说的好，下次别说了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。