Pyspark学习笔记(三)— SparkContext 与 SparkSession
文章目录
一、什么是SparkContext?
SparkContext
从 Spark 1.x(JavaSparkContext for Java)开始可用,在 2.0 中引入 SparkSession 之前,它被用作 Spark 和 PySpark 的入口点。创建 SparkContext 是使用 RDD 编程并连接到 Spark Cluster 的第一步。
在org.apache.spark包中定义,用于以编程方式在集群上创建 Spark RDD、累加器和广播变量。 它的对象sc 是 spark-shell 中可用的默认变量,可以使用SparkContext类以编程方式创建。
注意,每个 JVM 只能创建一个 SparkContext,如果您想创建另一个新 SparkContext,您应该stop()在创建新SparkContext之前停止现有 SparkContext。
官方文档: pyspark.SparkContext
#使用python语言创建sc变量的示例:
from pyspark.context import SparkContext
sc = SparkContext