Windows下Pycharm运行SparkSQL的相关配置

1. 所需的配置文件

完整配置的安装包如下图,可在此提取 ,提取码为c7tv
在这里插入图配置片描述

2. JDK环境变量配置

点击我的电脑(/计算机)-属性-高级系统设置-环境变量,
在这里插入图片描述
点击 新建,添加:
在这里插入图片描述
在这里插入图片描述
(上图变量值为“%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar”。)

在path中添加路径:%JAVA_HOME%\bin; (路径之间用分号;隔开)
在这里插入图片描述
以上设置成功后,打开cmd(win+R),输入“java -version”(中间有一空格),得到下图,说明配置成功。
在这里插入图片描述

3. Spark环境变量配置

其环境变量配置:
在这里插入图片描述
并添加path路径,%SPARK_HOME%\bin;%SPARK_HOME%\sbin;
在这里插入图片描述

4. Hadoop环境变量配置

Hadoop下载解压后,需要将其bin目录下的winutils.exe文件替换掉,用**步骤1**中第6个同名的文件来替换。(版本问题,所以替换)

其环境变量配置:
在这里插入图片描述
并添加path路径,%HADOOP_HOME%\bin;
在这里插入图片描述

5. Python安装

6. Pycharm相关配置

设置环境
Pycharm2018安装好后,打开,点击“Create New Project”,指定目录。点击“Run”,点击“Edit Configurations”。
在这里插入图片描述
点击“Templates”,点击“Python”,出现下图。
在这里插入图片描述
点击“Environment variables”右边的文件图标,添加SPARK_HOME,PYTHONPATH的键值对,点击“OK”,“OK”。
在这里插入图片描述
加载相关运行包
依次点击“File”,点击“Settings”,点击“Project:spark_work”,点击“Project Interpreter”,
在这里插入图片描述
点击右边的“+”号,依次搜索“pyspark”,“py4j”,并点击左下角的“Install Package”,加载成功。
在这里插入图片描述

最后,依次点击“File”,点击“Settings”,点击“Project:spark_work”,点击“Project Structure”,点击右上角的“Add Content Root”,并依次添加“D:\env_spark\spark\python\lib\”目录下的两个zip文件。在这里插入图片描述
在这里插入图片描述

7. 代码测试

from pyspark import SparkContext
from pyspark.sql import Row
from pyspark.sql import SQLContext

sc = SparkContext("local")
sqlContext = SQLContext(sc)

people = sc.textFile('D:\env_spark\people.txt')
peopleRDD = people.map(lambda x: x.split(",")).map(lambda x: Row(name=x[0],age=int(x[1])))

peopleDF = sqlContext.createDataFrame(peopleRDD)
peopleDF.registerTempTable("peopleDF")

result1 = peopleDF.count()
result2 = sqlContext.sql("select * from peopleDF").show()
print(result1)
print(result2)

(people.txt 为目录D:\env_spark\spark\examples\src\main\resources\people.txt文件)
在这里插入图片描述

-- 借鉴 学习 --

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值