Spark编程进阶--期末总结（书第四章）

最新推荐文章于 2024-08-03 08:30:36 发布

2301_77563994

最新推荐文章于 2024-08-03 08:30:36 发布

阅读量741

点赞数 20

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2301_77563994/article/details/138868298

版权

2.3 Scala插件（版本要与IDEA版本保持一致，下载2019.2.3版本）的下载安装）

2.4 检测Scala插件是否在IDEA中已经安装成功

2.5 新建scala类文件编写代码

2.6 鼠标点击java文件夹，右键new--->Scala Class

2.7 准备好测试文件words.txt,将文件存放在scalaproject-->data-->input-->words.txt

三、编写本地运行的Spark程序

3.1 编写pom.xml文件

3.2 编写程序

四、spark-submit 详细参数说明

五、完整代码实现

5.1 WordCount.scala文件在本地运行：

5.2 WordCount.scala文件在yarm上运行：

一、Spark和Hadoop的区别

Hadoop虽然已经成为大数据技术的事实标准，但其本身存在很多缺陷。比如，mapreduce计算模型延迟过高，无法实现实时快速计算的需求，只适用于离线批处理，I/O磁盘开销大。spark在借鉴mapreduce优点同时，很好解决了mapreduce存在的缺陷：

spark计算也属于mapreduce计算，但不局限于map和reduce操作；
spark提供内计算，中间结果放入内存，提高迭代运算效率
基于DAG的任务调度执行机制，优于mapreduce调度机制。

二、安装IDEA

可以在官网下载安装社区版本：

IntelliJ IDEA – the Leading Java and Kotlin IDE

2.1安装Scala

在File菜单->Settings->Plugins 插件安装界面搜索scala插件安装。

2.2 Scala下载

（我选择的版本是2.12.15）安装及环境变量的配置

官方下载地址：The Scala Programming Language (scala-lang.org)

双击打开下载好的安装程序，一直“Next”即可，最好不要安装到C盘，中间修改一下安装路径即可，最后点击“Finish”。我将scala软件安装在了D盘目录下的Develop文件夹，bin路径如下：

配置scala的系统环境变量，将scala安装的bin目录路径加入到系统环境变量path中：

win+R打开命令窗口输入：scala -verison ，进行检测是否成功配置环境变量

2.3 Scala插件（版本要与IDEA版本保持一致，下载2019.2.3版本）的下载安装）

Scala - IntelliJ IDEs Plugin | Marketplace

下载完成后，将下载的压缩包解压到IDEA安装目录下的plugins目录下

2.4 检测Scala插件是否在IDEA中已经安装成功

2.5 新建scala类文件编写代码

2.6 鼠标点击java文件夹，右键new--->Scala Class

在WordCount文件中编写如下代码：

import org.apache.spark.sql.SparkSession
object WordCount {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("word count")
      .getOrCreate()
    val sc = spark.sparkContext
    val rdd = sc.textFile("data/input/words.txt")
    val counts = rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    counts.collect().foreach(println)
    println("全部的单词数："+counts.count())
    counts.saveAsTextFile("data/output/word-count")
  }
}

2.7 准备好测试文件words.txt,将文件存放在scalaproject-->data-->input-->words.txt

运行WordCount程序:

运行结果：