scala 在 spark 中操作 hdfs

最新推荐文章于 2024-05-12 12:14:24 发布

刀砍磁感线

最新推荐文章于 2024-05-12 12:14:24 发布

阅读量7.5k

点赞数

分类专栏： spark java scala python hadoop 文章标签： scala hdfs spark

本文链接：https://blog.csdn.net/dkcgx/article/details/46799619

版权

本文介绍了在使用Spark时遇到的输出目录已存在导致任务失败的问题，探讨了通过Scala、Python和Java处理HDFS的不同方法。重点讲解了如何使用Scala与HDFS进行交互，包括所需的jar包和示例代码，展示了一个列出HDFS根目录下所有文件的Scala程序。

摘要由CSDN通过智能技术生成

问题场景：在编写spark程序时，输出目录存在会造成spark任务失败。处理方法有2种，第一利用脚本方式，在主任务之上加层处理，第二，在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包，十分方便，但是貌似没有处理hdfs系统的Python接口，而Python的执行脚本语言是异步于主任务的，换言之，主任务与脚本任务的执行完成顺序是不确定的。而Java语言貌似不是主流的spark语言。其中最完善的就是原生的Scala语言。所以在Scala中完成对hdfs的控制，及对主任务计算方式的控制，是spark任务最优雅的方式。

所需jar包： spark-assembly-1.2.1-hadoop2.4.0.jar

实例代码：

package com.util

import java.io.BufferedInputStream
import java.io.File
import java.io.FileInputStream
import java.io.InputStream

import org.apache.hadoop.conf._
import org.apache.hadoop.fs._
import org.apache.hadoop.fs.Path._

object ScalaHdfs {

def ls(fileSystem:FileSystem,path:String)= {
println("list path:"+path)
val fs = fileSystem.l

最低0.47元/天解锁文章

刀砍磁感线

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scala 在 spark 中操作 hdfs

问题场景：在编写spark程序时，输出目录存在会造成spark任务失败。处理方法有2种，第一利用脚本方式，在主任务之上加层处理，第二，在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包，十分方便，但是貌似没有处理hdfs系统的Python接口，而Python的执行脚本语言是异步于主任务的，换言之，主任务与脚本任务的执行完成顺
复制链接

扫一扫

专栏目录