IDEA+spark+scala wordcount 测试任务提交运行

最新推荐文章于 2024-03-14 19:09:16 发布

tbabg

最新推荐文章于 2024-03-14 19:09:16 发布

阅读量1.6k

点赞数 1

分类专栏： spark 文章标签： IDEA spark scala

本文链接：https://blog.csdn.net/IT_jiao/article/details/80294890

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

IDEA下载安装：

新建scala项目：

file--->new--->project scala-->sbt 自动下载导入需要的jar包

file--->project Structure

libraries:引入spark下的jar包

右击scala，新建scala class ,选择 object

wordcount scala代码：

import org.apache.spark._

object Hello {
  def main(args: Array[String]): Unit = {
    println("my first scala app")
    val conf=new SparkConf().setAppName("wordcount")
    val sc=new SparkContext(conf)
    val input=sc.textFile("spark/hellospark.txt")
    val lines=input.flatMap(line =>line.split(" "))
    val count=lines.map(word =>(word,1)).reduceByKey{case (x,y) =>x+y}
    val output=count.saveAsTextFile("spark/hellosparkRes")
  }
}

注：程序中的输入输出路径是针对hdfs上的路径，不是本地路径

写好后打包成jar

file--->project Structure--->Artifacts 点+，选择项目，导出

注：选择上边的只打包目标程序的jar，生成一个jar文件

选择下边的会把引用的所有jar包都重新生成，时间长，没必要，所以选择上面的

build--->build Artifacts--->build 等待完成

任务提交到集群运行：

spark-submit --master spark://hserver1:7077 --class Hello /root/spark/text2.jar

问题：

spark-submit 报错 Initial job has not accepted any resources：

spark-submit 后面加--executor-memory 512m就运行正常了（默认是1024m）（虚拟机当时配置的时候默认是1024m的内存，所以会出现内存空间不足）

运行完以后生成的文件：

生成part-00000和part-00001两个文件：

成功运行！

tbabg

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录