Pyspark学习笔记（三）--- SparkContext 与 SparkSession

Teeyohuang

已于 2022-05-25 22:13:09 修改

阅读量6.8k

点赞数 3

分类专栏： spark 文章标签： spark

于 2021-06-25 20:01:05 首次发布

本文链接：https://blog.csdn.net/Teeyohuang/article/details/118227202

版权

本文介绍了Pyspark中的SparkContext和SparkSession。SparkContext是Spark 1.x的入口点，而在2.0引入的SparkSession成为统一的编程接口，结合了SQLContext、HiveContext等。SparkSession常用方法包括获取Spark版本、创建DataFrame、读取数据、执行SQL等。

摘要由CSDN通过智能技术生成

Pyspark学习笔记（三）— SparkContext 与 SparkSession

在这里插入图片描述

文章目录

- Pyspark学习笔记（三）--- SparkContext 与 SparkSession
一、什么是SparkContext？
二、什么是 SparkSession
三、SparkSession 常用方法
系列文章目录：

一、什么是SparkContext？

SparkContext 从 Spark 1.x（JavaSparkContext for Java）开始可用，在 2.0 中引入 SparkSession 之前，它被用作 Spark 和 PySpark 的入口点。创建 SparkContext 是使用 RDD 编程并连接到 Spark Cluster 的第一步。
在org.apache.spark包中定义，用于以编程方式在集群上创建 Spark RDD、累加器和广播变量。它的对象sc 是 spark-shell 中可用的默认变量，可以使用SparkContext类以编程方式创建。
注意，每个 JVM 只能创建一个 SparkContext，如果您想创建另一个新 SparkContext，您应该stop()在创建新SparkContext之前停止现有 SparkContext。
官方文档： pyspark.SparkContext

#使用python语言创建sc变量的示例：
from pyspark.context import SparkContext
sc = SparkContext

最低0.47元/天解锁文章

Teeyohuang

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录