读取hdfs集群的文件
val file=sc.textFile("/data/wordcount.txt")
spark默认是在hdfs目录读取所以可以不写hdfs
也可以写成:val file=sc.textFile(“hdfs://nn:9000/path/file”)
读取本机文件
val file=sc.textFile(“file:///data/wordcount.txt”)
文本文件 TextInputFormat
sc.textFile(“file.txt”) // 将本地文本文件加载成 RDD
sc.textFile(“directory/*.txt”) // 将某类文本文件加载成 RDD
sc.textFile(“hdfs://nn:9000/path/file”) // hdfs 文件或目录
sequenceFile文件 SequenceFileInputFormat
sc.sequenceFile(“file.txt”) //将本地二进制文件加载成RDD
sc.sequenceFile[String, Int] (“hdfs://nn:9000/path/file”)
使用任意自定义的Hadoop InputFormat
sc.hadoopFile(path, inputFmt, keyClass, valClass)