spark RDD saveAsTextFile没有设置重复写入的参数，只能用hdfs先删再写

最新推荐文章于 2022-04-18 13:08:26 发布

百物易用是苏生

最新推荐文章于 2022-04-18 13:08:26 发布

阅读量4.5k

点赞数

分类专栏： hadoop spark

本文链接：https://blog.csdn.net/u010720408/article/details/99826301

版权

spark 同时被 2 个专栏收录

27 篇文章 2 订阅

订阅专栏

hadoop

8 篇文章 0 订阅

订阅专栏

spark RDD saveAsTextFile(path)也是调用的 hdfs的 saveAsHadoopFile 函数，但是并没有什么标志设置是否重写。

所以可以在代码中用hadoop的删除文件代码模块执行后，再写入。（方案一：判定文件路径是否存在，存在则删除，方案二：try catch包含删除操作代码，然后再删除）

//spark scala
import apache.hadoop.fs.FileSystem
import.apache.hadoop.fs.Path

var hadoopconf=HBaseConfiguration.create()
var fs=FileSystem.get(hadoopconf)
var path="xxxx"
try{
    if(path.length()>5){//路径名太短的不删除，防止删库跑路
        fs.delete(new Path(path),false)//false 直接删除不放入Trash垃圾站
    }
}catch{
    case ex:Exception=>{
        println(ex)
    }
}

当然又出现了另一个问题，说路径存在却又无法删除，属于另一个问题，我懒的搞，直接shell手动删除了，时间紧迫，后续再说

百物易用是苏生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark RDD saveAsTextFile没有设置重复写入的参数，只能用hdfs先删再写

spark RDD saveAsTextFile(path)也是调用的 hdfs的saveAsHadoopFile函数，但是并没有什么标志设置是否重写。所以可以在代码中用hadoop的删除文件代码模块执行后，再写入。（方案一：判定文件路径是否存在，存在则删除，方案二：try catch包含删除操作代码，然后再删除）//spark scalaimport apache.hadoop....
复制链接

扫一扫

专栏目录