1. 所需的配置文件
完整配置的安装包如下图,可在此提取 ,提取码为c7tv。
2. JDK环境变量配置
点击我的电脑(/计算机)-属性-高级系统设置-环境变量,
点击 新建,添加:
(上图变量值为“%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar”。)
在path中添加路径:%JAVA_HOME%\bin; (路径之间用分号;隔开)
以上设置成功后,打开cmd(win+R),输入“java -version”(中间有一空格),得到下图,说明配置成功。
3. Spark环境变量配置
其环境变量配置:
并添加path路径,%SPARK_HOME%\bin;%SPARK_HOME%\sbin;
4. Hadoop环境变量配置
Hadoop下载解压后,需要将其bin目录下的winutils.exe文件替换掉,用**步骤1**中第6个同名的文件来替换。(版本问题,所以替换)
其环境变量配置:
并添加path路径,%HADOOP_HOME%\bin;
5. Python安装
6. Pycharm相关配置
设置环境
Pycharm2018安装好后,打开,点击“Create New Project”,指定目录。点击“Run”,点击“Edit Configurations”。
点击“Templates”,点击“Python”,出现下图。
点击“Environment variables”右边的文件图标,添加SPARK_HOME,PYTHONPATH的键值对,点击“OK”,“OK”。
加载相关运行包
依次点击“File”,点击“Settings”,点击“Project:spark_work”,点击“Project Interpreter”,
点击右边的“+”号,依次搜索“pyspark”,“py4j”,并点击左下角的“Install Package”,加载成功。
最后,依次点击“File”,点击“Settings”,点击“Project:spark_work”,点击“Project Structure”,点击右上角的“Add Content Root”,并依次添加“D:\env_spark\spark\python\lib\”目录下的两个zip文件。
7. 代码测试
from pyspark import SparkContext
from pyspark.sql import Row
from pyspark.sql import SQLContext
sc = SparkContext("local")
sqlContext = SQLContext(sc)
people = sc.textFile('D:\env_spark\people.txt')
peopleRDD = people.map(lambda x: x.split(",")).map(lambda x: Row(name=x[0],age=int(x[1])))
peopleDF = sqlContext.createDataFrame(peopleRDD)
peopleDF.registerTempTable("peopleDF")
result1 = peopleDF.count()
result2 = sqlContext.sql("select * from peopleDF").show()
print(result1)
print(result2)
(people.txt 为目录D:\env_spark\spark\examples\src\main\resources\people.txt文件)