spark 的WholeTextFile使用以及文件路径

最新推荐文章于 2023-09-26 13:23:08 发布

jackliu2013

最新推荐文章于 2023-09-26 13:23:08 发布

阅读量6.7k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/u010770919/article/details/41315743

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.SparkContext._
import org.apache.spark.mllib.classification.SVMWithSGD
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors

/**
* @author Administrator
*
*/
object WholeTextFileTest {

def main(args: Array[String]): Unit = {

System.out.println("start the app " + new Date())
//
val conf = new SparkConf().setAppName("Spark Data processing").setMaster("local[*]")

val spark = new SparkContext(conf)

// val dataset = spark.textFile(Configuration.baseDir)

val dataset = spark.wholeTextFiles(Configuration.baseDir)

//test wholeTextFile<filename, content>
// dataset.collect().foreach(println)
// System.out.println(dataset.count)

val directories = dataset.collect()
for(i <-0 until directories.length)
{
val filenameContent = directories(i)
val filename = filenameContent._1

System.out.println(filename)

val originalfileRDD = spark.parallelize(filenameContent._2.split("\n"))

originalfileRDD.collect().foreach(println)
System.out.println(originalfileRDD.count)

}

}

}

baseDir: Spark支持通配符*，所以路径可以写成/*/*/*/* 以便支持多及目录