python 使用pyspark

老年断牙人

已于 2023-11-28 11:08:47 修改

阅读量474

点赞数 7

分类专栏： python 文章标签： python 开发语言

于 2023-11-26 21:28:47 首次发布

本文链接：https://blog.csdn.net/qq_45807165/article/details/134629230

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是spark

定义：Apache Spark是用于大规模数据处理的统一分析引擎。
简单来说spark是一种分布式的计算框架，用于调度成百上千的服务器集群，计算TB，PB，乃至EB级别的海量数据。

spark作为全球顶级的分布式计算机框架，支持众多的编程语言开发，而python 语言，则是spark重点支持的方向。
spark对python语言的支持，重点体现在，python第三方库：PySpark之上。
PySpark是由Spark官方开发的python语言的第三方库。

在这里插入图片描述

pyspark库的安装

打开cmd输入命令行：
pip install pyspark
在这里插入图片描述
清华大学镜像网站下载：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

构建pyspark执行环境入口对象

想要使用pyspark库完成数据处理，首先需要构建一个执行环境入口对象。
pyspark的执行环境入口对象是：类SparkContext 的类对象。

# 导包
from  pyspark import SparkConf,SparkContext
# 创建SparkConf类对象
conf = SparkConf().setMaster("local[*]").\
    setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext类对象
sc = SparkContext(conf=conf)
# 打印pyspark的运行版本
print(sc.version)
#停止sparkContext对象的运行（停止PySpark程序）
sc.stop()

在这里插入图片描述

spark编程模型

在这里插入图片描述

老年断牙人

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
python 使用pyspark

定义：Apache Spark是用于大规模数据处理的统一分析引擎。简单来说spark是一种分布式的计算框架，用于调度成百上千的服务器集群，计算TB，PB，乃至EB级别的海量数据。spark作为全球顶级的分布式计算机框架，支持众多的编程语言开发，而python 语言，则是spark重点支持的方向。spark对python语言的支持，重点体现在，python第三方库：PySpark之上。PySpark是由Spark官方开发的python语言的第三方库。
复制链接

扫一扫