SparkContext与SparkSession
SparkContext、SparkSession是对Spark计算集群的一个连接,当我们通过shell启动Spark时,会默认创建,如SparkContext会默认创建一个命名为sc的实例,而当自己编写应用要自己创建。
1. SparkContext
1.1 是什么?
如上图,SparkContext是Spark中Driver程序的一部分,向资源管理器cluster manager(可以是mesos、yarn、standalone)申请spark应用所需的资源executor,资源管理器在各个worker上分配一定的executor。
当我们编写pyspark程序时,SparkContext是使用spark功能的入口点。
SparkContext是Pyspark中的一个类,初始化时需要给定master、appName等信息,详细参数可参考大数据入门与实战-PySpark的使用教程。
1.2 简单用法
SparkContext主要用于创建和操作RDD。
终端