一、概念
-
每个
spark
应用都由一个驱动器程序(driver program
)来发起集群上的各种并行操作driver program
包含了应用的main
函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作driver program
通过一个SparkContext
对象来访问spark
driver program
一般要管理多个执行器(executor
) 节点
-
SparkContext
:该对象代表了对计算集群的一个连接- 在
pyspark shell
中,当shell
启动时,已经自动创建了一个SparkContext
对象,它叫做sc
。 - 通常可以用它来创建
RDD
- 在
二、PySpark shell与独立应用
1.PySpark shell
spark
带有交互式的 shell
,可以用于即时数据分析
(1)spark shell
可以与分布式存储在许多机器的内存或者硬盘上的数据进行交互,处理过程由spark
自动控制
(2)pyspark shell
是 spark shell
的python
版本