SparkPi例子运行出错解决方法

最新推荐文章于 2023-12-04 17:27:36 发布

coco_ethan

最新推荐文章于 2023-12-04 17:27:36 发布

阅读量3.9k

点赞数

分类专栏： spark 文章标签： spark 异常 intellij

本文链接：https://blog.csdn.net/gaokao2011/article/details/42032971

版权

spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

按照《Spark实战高手之路-第1章》的前四节，搭建完Spark集群及IDEA集成环境后，最后一步是用IDEA集成环境运行SparkPi例子。可就在这最后一步，让我花了三天时间才最终完成。所以，这里详细介绍解决方法，让接下来以《 Spark实战高手之路》入门的后来者少走些弯路。

1.在《Spark实战高手之路-第1章（4）》的最后，说要以本地模式过行，则在 Edit Configurations->Program arguments中输入“local”就不会报错了，但事实是：加之前与加之后都报错，且错误相同。此次报错内容总共只有6行，主要内容是“A master URL must be „...”,大致意思是找不到master 的URL 路径。

解决方法：
找不到URL路径，要在代码中添加
conf.setMaster("spark://192.168.1.130:7077").自行设置URL路径，其中， 192.168.1.130 是我的Master电脑的IP地址，不同的集群根据自己的情况而定。这个方法在《Spark实战高手之路-第1章（5）》的最后也提到过，可能原文的本意是仅本地运行时填“local”,当要在集群上运行时要添加master的URL路径，但好像在本地运行不是很happy.好在重点不在本地运行，而在集群，所以就不管“local”了。下面看一下这一行代码集体插入的位置和方法：原代码：

import scala.math.random

import org.apache.spark._

/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi")
    val spark = new SparkContext(conf)
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = 100000 * slices
    val count = spark.parallelize(1 to n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    spark.stop()
}
}

修改后：

import scala.math.random
import org.apache.spark._

/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi")
    conf.setMaster("spark://192.168.1.130:7077")
    val spark = new SparkContext(conf)
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = 100000 * slices
    val count = spark.parallelize(1 to n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    spark.stop()
}
}

此处还要注意一点的是：在配置spark-env.sh中的SPARK_MASTER_IP=192.168.1.130这个地方我之前是用hosts中的映射名称来代替，发现修改了代码还是不行。然后就把它改成具体的ip。第一个问题解决。

2.在解决完第一种异常后运行，发现会出现新的异常，而且这次异常所用的行数远多于6行。主要内容为”java.lang.ClassNotFoundException:”,意思应该是没有将jar包提交到spark的worker上面，导致运行的worker找不到被调用的类。

解决方法：
将要运行的程序达成jar包，然后调用JavaSparkContext的addJar方法将该jar包提交到spark集群中，然后spark的master会将该jar包分发到各个worker上面。（本段内容参考了
http://www.dataguru.cn/forum.php?mod=viewthread&tid=322668   网站的内容。）

接下来我就偿试打jar包，再提交。先说一下提交的方法：
原代码：
import scala.math.random

import org.apache.spark._

/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi")
    conf.setMaster("spark://192.168.1.130:7077")
    val spark = new SparkContext(conf)
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = 100000 * slices
    val count = spark.parallelize(1 to n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    spark.stop()
}
}

添加后：

import scala.math.random

import org.apache.spark._

/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi")
    conf.setMaster("spark://192.168.1.130:7077")
    val spark = new SparkContext(conf)
    spark.addJar("/home/hadoop/s2.jar")
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = 100000 * slices
    val count = spark.parallelize(1 to n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    spark.stop()
}
}

其中 s2.jar 就是我们打的包。

下面聚体说下怎么打包：
起初我是在终端用命令行：jar cvf 自行打包，但是不对。正确的打包方法是这样的：

依次选择“File”–> “Project Structure” –> “Artifact”，选择“+”–> “Jar” –> “From Modules with dependencies”，选择main函数，并在弹出框中选择输出jar位置，并选择“OK”。
最后依次选择“Build”–> “Build Artifact”编译生成jar包。具体如下图所示。

转载自董的博客：
http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/

这里打成的包还比较大，我打了三次，都是一百二三十兆。包打成后，可以将.jar文件移到目录较浅的地方，方便代码的编写。

3.总结
要使Spark自带的示例能够在集群上运行，需要增加两行代码，一行用来指明master路径：conf.setMaster("spark://192.168.1.130:7077")，另一行用来把打好的jar 包发到集群上：spark.addJar("/home/hadoop/s2.jar")。然后注意一下打包的方法，和生成包的大小。

最后，祝你成功！！！

coco_ethan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkPi例子运行出错解决方法

按照《Spark实战高手之路-第1章》的前四节，搭建完Spark集群及IDEA集成环境后，最后一步是用IDEA集成环境运行SparkPi例子。可就在这最后一步，让我花了三天时间才最终完成。所以，这里详细介绍解决方法，让接下来以《 Spark实战高手之路》入门的后来者少走些弯路。1.在《Spark实战高手之路-第1章（4）》的最后，说要以本地模式过行，则在 Edit Configurations
复制链接

扫一扫

专栏目录