在学习和使用PySpark之初,可能都会遇到这个报错:
看下场景:
场景一:
创建SparkContext的最基本方法,只需要传递两个参数:
(1)集群URL:告诉Spark如何连接到集群上,使用local可以让spark运行在单机单线程上。
(2)应用名:使用"monter",当连接到一个集群时,这个值可以在集群管理器的用户界面中找到你的应用。
from pyspark import SparkConf, SparkContext
spark = SparkConf().setMaster("local").setAppName("monter")
sc = SparkContext(conf = spark)
报错:出现这个错误是因为之前已经启动了SparkContext,所以需要先关闭spark,然后再启动。
解决方法:
sc.stop() // 关闭spark
sc = SparkContext(conf = spark)
场景二:
spark_1 = SparkSession.builder \
.master("local") \
.appName("monter") \
.enableHiveSupport() \
.getOrCreate()
spark_2 = SparkConf().setMaster("local").setAppName("monter")
sc = SparkContext(conf = spark_2)
报错:其实报错原因和第一种类似,都是已经存在了,不能再建
解决方案:
spark_1.stop()
from pyspark import SparkConf, SparkContext
spark_2 = SparkConf().setMaster("local").setAppName("monter")
sc = SparkContext(conf = spark_2)
总而言之,只能启动一个,不能重复启动。