Windows下Pycharm运行SparkSQL的相关配置

最新推荐文章于 2024-02-04 12:23:30 发布

黑色白色5

最新推荐文章于 2024-02-04 12:23:30 发布

阅读量732

点赞数 2

分类专栏： Spark 文章标签： Spark SparkSQL Pycharm pyspark

本文链接：https://blog.csdn.net/bai1cai1/article/details/94564038

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 所需的配置文件

完整配置的安装包如下图，可在此提取，提取码为c7tv。
在这里插入图配置片描述

2. JDK环境变量配置

点击我的电脑(/计算机)-属性-高级系统设置-环境变量，
在这里插入图片描述
点击新建，添加：

(上图变量值为“%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar”。)

在path中添加路径：%JAVA_HOME%\bin; (路径之间用分号;隔开)
在这里插入图片描述
以上设置成功后，打开cmd(win+R），输入“java -version”(中间有一空格)，得到下图，说明配置成功。

3. Spark环境变量配置

其环境变量配置：
在这里插入图片描述
并添加path路径，%SPARK_HOME%\bin;%SPARK_HOME%\sbin;

4. Hadoop环境变量配置

Hadoop下载解压后，需要将其bin目录下的winutils.exe文件替换掉，用**步骤1**中第6个同名的文件来替换。(版本问题，所以替换)

其环境变量配置：
在这里插入图片描述
并添加path路径，%HADOOP_HOME%\bin;

5. Python安装

6. Pycharm相关配置

设置环境
Pycharm2018安装好后，打开，点击“Create New Project”，指定目录。点击“Run”，点击“Edit Configurations”。
在这里插入图片描述
点击“Templates”，点击“Python”，出现下图。

点击“Environment variables”右边的文件图标，添加SPARK_HOME，PYTHONPATH的键值对，点击“OK”，“OK”。

加载相关运行包
依次点击“File”，点击“Settings”，点击“Project:spark_work”，点击“Project Interpreter”，
在这里插入图片描述
点击右边的“+”号，依次搜索“pyspark”，“py4j”，并点击左下角的“Install Package”，加载成功。

最后，依次点击“File”，点击“Settings”，点击“Project:spark_work”，点击“Project Structure”，点击右上角的“Add Content Root”，并依次添加“D:\env_spark\spark\python\lib\”目录下的两个zip文件。在这里插入图片描述

7. 代码测试

from pyspark import SparkContext
from pyspark.sql import Row
from pyspark.sql import SQLContext

sc = SparkContext("local")
sqlContext = SQLContext(sc)

people = sc.textFile('D:\env_spark\people.txt')
peopleRDD = people.map(lambda x: x.split(",")).map(lambda x: Row(name=x[0],age=int(x[1])))

peopleDF = sqlContext.createDataFrame(peopleRDD)
peopleDF.registerTempTable("peopleDF")

result1 = peopleDF.count()
result2 = sqlContext.sql("select * from peopleDF").show()
print(result1)
print(result2)

(people.txt 为目录D:\env_spark\spark\examples\src\main\resources\people.txt文件)
在这里插入图片描述