scala 在 spark 中操作 hdfs

原创 2015年07月08日 10:00:47

问题场景:在编写spark程序时,输出目录存在会造成spark任务失败。处理方法有2种,第一利用脚本方式,在主任务之上加层处理,第二,在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包,十分方便,但是貌似没有处理hdfs系统的Python接口,而Python的执行脚本语言是异步于主任务的,换言之,主任务与脚本任务的执行完成顺序是不确定的。而Java语言貌似不是主流的spark语言。其中最完善的就是原生的Scala语言。所以在Scala中完成对hdfs的控制,及对主任务计算方式的控制,是spark任务最优雅的方式。


所需jar包: spark-assembly-1.2.1-hadoop2.4.0.jar 


实例代码:

package com.util

import java.io.BufferedInputStream
import java.io.File
import java.io.FileInputStream
import java.io.InputStream

import org.apache.hadoop.conf._
import org.apache.hadoop.fs._
import org.apache.hadoop.fs.Path._

object ScalaHdfs {
  
    def ls(fileSystem:FileSystem,path:String)= {
      println("list path:"+path)
      val fs = fileSystem.listStatus(new Path(path))
      val listPath = FileUtil.stat2Paths(fs)
      for( p <- listPath) {
        println(p)
      }
      println("----------------------------------------")
    }
  
    def main(args: Array[String]) {
      val conf = new Configuration()
      println(conf)
      val fileSystem = FileSystem.get(conf)
      ls(fileSystem,"/")
    }
}


输出结果:

[hadoop@localhost spark-1.2]$ ./spark-submit --class com.util.ScalaHdfs  ScalaHdfs.jar
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Configuration: core-default.xml, core-site.xml
list path:/
hdfs://localhost:9000/aaa
hdfs://localhost:9000/bbb
hdfs://localhost:9000/ccc
hdfs://localhost:9000/ddd
hdfs://localhost:9000/count
hdfs://localhost:9000/hbase
hdfs://localhost:9000/tmp
hdfs://localhost:9000/user
----------------------------------------


参考:http://m.blog.csdn.net/blog/linger2012liu/43314651


相关文章推荐

scala中hdfs文件的操作

对于org.apache.hadoop.fs.Path来说, path.getName只是文件名,不包括路径 path.getParent也只是父文件的文件名,同样不包括路径 path.toStrin...

Scala---文件读取、写入、控制台操作

Scala文件读取E盘根目录下scalaIO.txt文件内容如下: //文件读取 val file=Source.fromFile("E:\\scalaIO.txt") for(l...

scala在spark上操作hdfs

scala在spark上操作hdfs package tester import java.io.BufferedInputStream import java.io.File i...

scala读取HDFS上的文件,每次读取一行

用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。 现在的需求是一次读取文件中的一部分,依次读取完。 之前用字节流偶尔出现乱码,最后改成一次读取一行了。im...
  • ZMC921
  • ZMC921
  • 2017年07月26日 11:14
  • 681

Scala读取HDFS文件

import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.hadoop.conf.Configuration import ...

HDFS读写文件的过程

HDFS写入流程 1、 使用HDFSᨀ供的客户端Client, 向远程的Namenode发起RPC请求 2、 Namenode会检查要创建的文件是否已经存在, 创建者是否有权限进行操作, 成功则会...

hadoop-hdfs-文件工具类(Scala)

package com.avcdata.spark.job.utilimport java.io.{File, FileInputStream, FileOutputStream, IOExcepti...

scala读取HDFS文件,每次读取一定的字节数

版权声明:本文为博主原创文章,未经博主允许不得转载。 用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。 现在的需求是一次读取文件中的一部分,依次读取完。...

scala读取HDFS文件,每次读取一定的字节数

用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。 现在的需求是一次读取文件中的一部分,依次读取完。 如果有疑问,或者找出错误的解决方案,请和我联系。一起研究讨...
  • ZMC921
  • ZMC921
  • 2017年07月26日 11:00
  • 412

Scala文件的读取与写入,从控制台输入内容

1 读取文件 2 从网页获取 3 写入文件 将从网页上获取的内容写入到本地文件: 写入的结果如下: 4 控制台输入 在控制台...
  • Kinger0
  • Kinger0
  • 2015年07月07日 16:27
  • 13928
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:scala 在 spark 中操作 hdfs
举报原因:
原因补充:

(最多只允许输入30个字)