使用python跑spark：windowns使用PySpark环境配置和基本操作

最新推荐文章于 2024-08-13 17:16:48 发布

Nick_Spider

最新推荐文章于 2024-08-13 17:16:48 发布

阅读量1.4k

点赞数

分类专栏： python 大数据 pyspark 文章标签： spark python 大数据 hadoop

本文链接：https://blog.csdn.net/weixin_39198406/article/details/104798681

版权

本文介绍了在Windows上配置PySpark环境的步骤，包括下载hadoop和spark，设置环境变量。接着展示了如何在shell和IDE中启动PySpark，以及创建SparkContext。重点讲解了RDD的概念和操作，如Transformation和Action，通过实例演示了parallelize、count、collect、foreach、filter、map、reduce和join等操作。

摘要由CSDN通过智能技术生成

PySpark环境配置和基本操作

下载依赖
基本使用
RDD
- 创建RDD
- Count
- Collect
- foreach
- filter
- map
- Reduce
- Join

下载依赖

首先需要下载hadoop和spark，解压，然后设置环境变量。
hadoop清华源下载
 spark清华源下载

HADOOP_HOME => /path/hadoop
SPARK_HOME => /path/spark

安装pyspark。

pip install pyspark

基本使用

可以在shell终端，输入pyspark，有如下回显：
在这里插入图片描述
输入以下指令进行测试，并创建SparkContext，SparkContext是任何spark功能的入口点。

>>> from pyspark import SparkContext
>>> sc = SparkContext("local", "First App")

如果以上不会报错，恭喜可以开始使用pyspark编写代码了。
不过，我这里使用IDE来编写代码，首先我们先在终端执行以下代码关闭SparkContext。

>>> sc.stop()

下面使用pycharm编写代码，如果修改了环境变量需要先重启pycharm。
在pycharm运行如下程序，程序会起本地模式的spark计算引擎，通过spark统计abc.txt文件中a和b出现行的数量，文件路径需要自己指定。

from pyspark import SparkContext

sc = SparkContext("local", "First App")
logFile = "abc.txt"
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Line with a:%i,line with b:%i" % (numAs, numBs))

运行结果如下：

20/03/11 16:15:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
20/03/11 16:15:58 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
Line with a:3,line with b:1

这里说一下，同样的工作使用python可以做，spark也可以做，使用spark主要是为了高效的进行分布式计算。
戳pyspark教程
 戳spark教程

RDD

RDD代表Resilient Distributed Dataset，它们是在多个节点上运行和操作以在集群上进行并行处理的元素，RDD是spark计算的操作对象。
一般，我们先使用数据创建RDD，然后对RDD进行操作。
对RDD操作有两种方法：
Transformation（转换） - 这些操作应用于RDD以创建新的RDD。例如filter，groupBy和map。
Action（操作） - 这些是应用于RDD的操作，它指示Spark执行计算并将结果发送回驱动程序，例如count，collect等。