本地模式调试Spark程序（IDEA）

最新推荐文章于 2024-05-29 12:59:38 发布

AnimalsD

最新推荐文章于 2024-05-29 12:59:38 发布

阅读量1.7k

点赞数

分类专栏：大数据文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_36964872/article/details/109187904

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

0、安装好jdk环境

1、下载hadoop对应的压缩包，解压至本地磁盘目录，并配置好环境变量

添加到Path中

2、需要注意的是，需要将本地JAVA_HOME在hadoop解压缩的目录D:\hadoop-2.9.2\etc\hadoop 下的文件 hadoop-env.cmd进行修改

原JAVA_HOME路径中有（Program File）包含了空格，需要将其修改为（Progra~1），修改后的效果如下

3、最后下载本地执行程序时需要用到的一些脚本文件 winutils，选择对应的版本，并添加到D:\hadoop-2.9.2\bin 目录下

4、将hadoop.dll复制到C:\Window\System32下即可

将hadoop.dll复制到C:\Window\System32下

5、执行Spark WordCount案例

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaWordCount {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]")

    val sc = new SparkContext(conf)

    val lines : RDD[String] = sc.textFile(args(0))

    val words : RDD[String]= lines.flatMap(_.split(" "))

    val wordAndOne : RDD[(String,Int)] = words.map((_,1))

    val reduced : RDD[(String,Int)] = wordAndOne.reduceByKey(_+_)

    val sorted : RDD[(String,Int)] = reduced.sortBy(_._2,false)

    sorted.saveAsTextFile(args(1))

    sc.stop()
  }
}

设置执行参数：字典数据，目标文件

参考链接：

https://blog.csdn.net/medier/article/details/80572584

AnimalsD

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
本地模式调试Spark程序（IDEA）

0、安装好jdk环境1、下载hadoop对应的压缩包，解压至本地磁盘目录，并配置好环境变量添加到Path中2、需要注意的是，需要将本地JAVA_HOME在hadoop解压缩的目录D:\hadoop-2.9.2\etc\hadoop 下的文件 hadoop-env.cmd进行修改原JAVA_HOME路径中有（Program File）包含了空格，需要将其修改为（Progra~1），修改后的效果如下3、最后下载本地执行程序时需要用到的一些脚本文件 winutils，选择对应的
复制链接

扫一扫

专栏目录