0、安装好jdk环境
1、下载hadoop对应的压缩包,解压至本地磁盘目录,并配置好环境变量
添加到Path中
2、需要注意的是,需要将本地JAVA_HOME在hadoop解压缩的目录D:\hadoop-2.9.2\etc\hadoop 下的文件 hadoop-env.cmd进行修改
原JAVA_HOME路径中有(Program File)包含了空格,需要将其修改为(Progra~1),修改后的效果如下
3、最后下载本地执行程序时需要用到的一些脚本文件 winutils,选择对应的版本,并添加到D:\hadoop-2.9.2\bin 目录下
4、将hadoop.dll复制到C:\Window\System32下即可
将hadoop.dll复制到C:\Window\System32下
5、执行Spark WordCount案例
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object ScalaWordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]")
val sc = new SparkContext(conf)
val lines : RDD[String] = sc.textFile(args(0))
val words : RDD[String]= lines.flatMap(_.split(" "))
val wordAndOne : RDD[(String,Int)] = words.map((_,1))
val reduced : RDD[(String,Int)] = wordAndOne.reduceByKey(_+_)
val sorted : RDD[(String,Int)] = reduced.sortBy(_._2,false)
sorted.saveAsTextFile(args(1))
sc.stop()
}
}
设置执行参数:字典数据,目标文件
参考链接: