linux下spark的python编辑_如何在Linux下构建Spark Python编程环境

最新推荐文章于 2023-01-03 23:55:22 发布

weixin_39543478

最新推荐文章于 2023-01-03 23:55:22 发布

阅读量185

点赞数

文章标签： linux下spark的python编辑

火花编程环境

Spark可以独立安装或与Hadoop一起使用. 在安装Spark之前linux的python编程环境，首先请确保您的计算机上已安装Java 8或更高版本.

火花安装

访问Spark下载页面，然后选择最新版本的Spark直接下载. 当前最新版本是2.4.2. 下载后，需要将其解压缩到安装文件夹中. 根据您的喜好，我们将其安装在/ opt目录下.

tar -xzf spark-2.4.2-bin-hadoop2.7.tgz

mv spark-2.4.2-bin-hadoop2.7/opt/spark-2.4.2

为了直接在终端中打开Spark的shell环境，您需要配置相应的环境变量. 这里我使用zsh，因此我需要将环境配置为〜/ .zshrc.

如果未安装zsh，则可以将其配置为〜/ .bashrc

# 编辑 zshrc 文件

sudo gedit ~/.zshrc

# 增加以下内容：export SPARK_HOME=/opt/spark-2.4.2export PATH=$SPARK_HOME/bin:$PATH

export PythonPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

配置完成后，在shell中输入spark-shell或pyspark进入Spark交互式编程环境. 前者是进入Scala交互环境，后者是进入Python交互环境.

配置Python编程环境

这里有两个编程环境，Jupyter和Visual Studio Code. 前者促进交互式编程，而后者促进最终的集成开发.

Jupyter的PySpark

首先介绍如何在Jupyter中使用Spark，请注意，此处Jupyter笔记本和Jupyter实验室是常用方法，此处以Jupyter实验室中的配置为例:

在Jupyter实验室中有两种使用PySpark的方法:

pyspark将自动打开Jupyter实验室；

findSpark软件包以加载PySpark.

第一个选项速度更快，但特定于Jupyter笔记本电脑，第二个选项是一种更广泛的方法，使PySpark可在任何您喜欢的IDE中使用. 强烈建议使用第二种方法.

方法1: 配置PySpark启动器

更新PySpark启动器的环境变量，并继续将以下内容添加到〜/ .zshrc文件中:

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='lab'

如果要使用jupyter笔记本，请将第二个参数的值更改为Notebook

刷新环境变量或重新启动计算机linux的python编程环境，然后执行pyspark命令，该命令将在启动Spark的情况下直接打开Jupyter实验室.

pyspark

方法2: 使用findSpark包

在Jupyter实验室中还有另一种更通用的使用PySpark的方法: 使用findspark包在代码中提供Spark上下文.

findspark软件包不是Jupyter实验室专用的，您也可以在其他IDE中使用此方法，因此该方法更通用，建议使用.

首先安装findspark:

pip install findspark

然后，打开Jupyter实验室. 在编程Spark时，我们需要首先导入findspark包. 示例如下:

# 导入 findspark 并初始化import findspark

findspark.init()from pyspark importSparkConf,SparkContextimport random

# 配置 Spark

conf =SparkConf().setMaster("local[*]").setAppName("Pi")# 利用上下文启动 Spark

sc =SparkContext(conf=conf)

num_samples =100000000definside(p):

x, y = random.random(), random.random()return x*x + y*y <1

count = sc.parallelize(range(0, num_samples)).filter(inside).count()

pi =4* count / num_samples

print(pi)

sc.stop()

运行示例:

VScode中的PySpark

Visual Studio Code作为出色的编辑器，对于Python开发非常方便. 以下是一些推荐的个人插件:

Python: 必须安装的插件，提供Python语言支持；

代码运行器: 支持在文件中运行某些片段；

此外，在VScode上使用Spark不需要使用findspark软件包，您可以直接编程:

from pyspark importSparkContext,SparkConf

conf =SparkConf().setMaster("local[*]").setAppName("test")

sc =SparkContext(conf=conf)

logFile ="file:///opt/spark-2.4.2/README.md"

logData = sc.textFile(logFile,2).cache()

numAs = logData.filter(lambda line:'a'in line).count()

numBs = logData.filter(lambda line:'b'in line).count()print("Lines with a: {0}, Lines with b:{1

摘要

以上是我介绍给您的一种用于在Linux下为Spark建立Python编程环境的方法. 希望对大家有帮助. 如有任何疑问，请留言，我会及时回复您！

本文标题: 如何在Linux下构建Spark Python编程环境

本文地址:

本文来自电脑杂谈，转载请注明本文网址：

http://www.pc-fly.com/a/jisuanjixue/article-244469-1.html

weixin_39543478

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
linux下spark的python编辑_如何在Linux下构建Spark Python编程环境

火花编程环境Spark可以独立安装或与Hadoop一起使用. 在安装Spark之前linux的python编程环境，首先请确保您的计算机上已安装Java 8或更高版本.火花安装访问Spark下载页面，然后选择最新版本的Spark直接下载. 当前最新版本是2.4.2. 下载后，需要将其解压缩到安装文件夹中. 根据您的喜好，我们将其安装在/ opt目录下.tar -xzf spark-2.4.2-bi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。