总第130篇/张俊红
1.Spark介绍
Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么,可能还不是太理解,通俗讲就是可以分布式处理大量极数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。
这一篇主要给大家分享如何在Windows
上安装Spark。
2.Spark下载
我们要安装Spark,首先需要到Saprk官网去下载对应的安装包,Spark官网:http://spark.apache.org/downloads.html
第一步点击我红框框住的蓝色链接部分即可。
![spark首页](https://i-blog.csdnimg.cn/blog_migrate/08faadf0f5d0dc3e368cc6cf997a0cf8.png)
操作了第一步以后会跳转到另一个页面,如下图所示,选择红框框住的部分进行下载,然后选择文件保存的路径进行保存即可。
![spark下载页](https://i-blog.csdnimg.cn/blog_migrate/f9154df6be209bce1ab08273912c68e2.png)
我们需要把下图中的bin文件所在的路径设置到环境变量里面。
![spark文件](https://i-blog.csdnimg.cn/blog_migrate/ae843521055f8ed52efebcb51cb89cce.png)
3.Spark环境变量设置
第一步右键我的电脑,然后选择属性,就来到了下图这个界面。
![step1](https://i-blog.csdnimg.cn/blog_migrate/3d4e6f2917d229f65ec306637031ef82.png)
选择红框框住的高级系统系统设置,然后再点击环境变量。
![step2](https://i-blog.csdnimg.cn/blog_migrate/97ec680809c8806340f79d461ac34caf.png)
这里我们看到有两个path,一个是用户的环境变量,一个是系统的环境变量,这两个有啥区别呢?
系统的环境变量设置以后对所有登陆这个系统的所有用户都起作用,而用户环境变量只对这个用户起作用,我们一般设置系统环境变量,即系统用户变量里面的path。
先点击path部分把path行选中,然后再点击编辑。
![step3](https://i-blog.csdnimg.cn/blog_migrate/c03b9ff2bff6f058cf27c8dc8ddd6696.png)
把bin (包含bin) 文件夹所在的路径添加到已有环境变量的后面,并用;
隔开,然后点击确定,这样环境变量就配置成功。
![step4](https://i-blog.csdnimg.cn/blog_migrate/ee0235530a81f431b6ac94a8fa700952.png)
利用组合键Win+R
调出cmd
界面,输入spark-shell
,得到如下界面:
![error1](https://i-blog.csdnimg.cn/blog_migrate/d37535f86b869f119f7e7cc62aea96d1.png)
报错Missing Python executable Python
是因为没有把Python
添加到环境变量中,所以需要先把Python
添加到环境变量中,添加方式和Spark
添加方式是一样的,只需要找到你电脑中Python
所在路径即可。
![error2](https://i-blog.csdnimg.cn/blog_migrate/a03ff9b7959eb226cd14bc1f275d6003.png)
把Python添加到环境变量以后,再次输入spark-shell
,没有Python的报错了,但是还有Java not found
的报错,所以我们需要在电脑上安装Java
。
4.Java下载安装
首先需要来到Java官网去下载对应的Java版本,Java官网:https://www.oracle.com/technetwork/java/javase/downloads/index.html
选择我红框框住的JDK DOWNLOAD
,然后就会跳转到另一个页面。
![java1](https://i-blog.csdnimg.cn/blog_migrate/e2d2c6c3ed82248f1248aec89eb88006.png)
先点击小红框框住的Accept License Agreement
,然后再点击下方对应的版本,这里我电脑是Windows 64bit
,所以选择Windows x64
即可。
![java2](https://i-blog.csdnimg.cn/blog_migrate/76303ce24a2561e1e2fd9e3e2742caed.png)
下载好以后是一个.exe
文件,直接双击运行即可,等程序安装完成以后,同样需要把安装目录下的bin
文件夹添加到环境变量,添加方式与spark添加方式一样。
![jdk文件](https://i-blog.csdnimg.cn/blog_migrate/5c4b1831bef57e1800e8b52e61d58a5d.png)
这个时候再次输入sprak-shell
就会得到下图中大大的一个spark图案,当你看到这个界面时,说明spark已经安装配置完成了。
![success1](https://i-blog.csdnimg.cn/blog_migrate/30ae9b2cab180db176f9448d3f9e1b1e.png)
因为spark是由scala语言写的,所以spark原生就支持scala语言,所以你会看到scala>
这个符号,scala语言中也有print
方法,我们输入一个看看结果,得到我们想要的结果了,说明正式安装完成了。
![get](https://i-blog.csdnimg.cn/blog_migrate/31683800399fdedc828d0a33effb85da.png)
5.PySpark安装
经过上面的步骤以后我们算是把spark已经成功安装到了我们的电脑中,但是spark默认是用的scala语言。如果我们想要用Python语言去写spark的话,而且只需要用Python语言的话,可以直接利用pyspark
模块,不需要经过上面的spark下载和环境配置过程,但是同样需要java环境配置过程。pyspark模块安装的方法与其他模块一致,直接使用下述代码即可:
pip install pyspark
这里需要注意一点就是,如果你的python
已经添加到环境变量了,那么就在系统自带的cmd界面
运行pip
。如果你是用的是Anaconda
,且没有添加环境变量,那你就需要在Anaconda Promt
中运行pip
了。当pip安装成功以后,打开jupyter notebook
输入:
import pyspark
如果没有报错,说明pyspark
模块已经安装成功,可以开始使用啦。