记2020年4月1 日提交spark任务

最新推荐文章于 2024-06-25 15:52:41 发布

fufengya

最新推荐文章于 2024-06-25 15:52:41 发布

阅读量417

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/fufengya/article/details/105237150

版权

本文记录了使用Idea编写Spark程序并打包上传到集群的过程。在打包和提交任务时遇到了包括Scala版本不兼容、依赖包加载错误和NoClassDefFoundError等问题。通过调整Scala版本、解决本地仓库路径问题以及确保集群与IDE环境配置一致，最终成功提交并运行Spark任务。

摘要由CSDN通过智能技术生成

idea编写代码

1.idea编写代码

package bigdata
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object Word {
  def main(args: Array[String]): Unit = {
    //1.创建SparkConf对象,设置appName
    val sparkconf = new SparkConf().setAppName("Word")
    //2.创建SparkContext对象，它是所有任务计算的源头，它会创建DAGScheduler和TaskScheduler
    val sparkContext = new SparkContext(sparkconf)
    //3.读取HDFS数据文件,RDD可以简单的理解为是一个集合，集合中存放的元素是String类型
    val data : RDD[String] = sparkContext.textFile(args(0))
    //4.切分每一行，获取所有的单词
    val words :RDD[String] = data.flatMap(_.split(" "))
    //5.每个单词记为1，转换为（单词，1）
    val wordAndOne :RDD[(String, Int)] = words.map(x =>(x,1))
    //6.相同单词汇总，前一个下划线表示累加数据，后一个下划线表示新数据
    val result: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_)
    //7.把结果数据保存到HDFS上
    result.saveAsTe