从无到有的搭建pyspark环境（windows10）

最新推荐文章于 2024-05-10 11:47:06 发布

广志大兄弟

最新推荐文章于 2024-05-10 11:47:06 发布

阅读量582

点赞数

分类专栏： Hadoop python spark

本文链接：https://blog.csdn.net/itguangzhi/article/details/85158333

版权

python 同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

spark

4 篇文章 1 订阅

订阅专栏

Hadoop

2 篇文章 0 订阅

订阅专栏

欢迎来到广志大兄弟吹牛逼的博客，一个小菜菜，自主摸索一些条条框框，看看大佬们的行业方向。自我有点小成绩，就拿出来秀一秀。废话不多说，尽情欣赏正文~

下载安装所需文件

需要准备的内容大体如下：

java环境
python环境
hadoop环境在本机上
spark环境

以上内容都是安装在windows上的，并且为单实例单节点的开发环境。如果需要上linux上，请自行查找资料如何配置环境。

安装java环境

别的我不废话，因为很简单，如果已经安装好了，配置好了环境变量，请跳过这一步。但是要注意一点，安装的java环境JAVA_HOME路径不能带有空格。
至于为什么？请自行脑补你遇到从没看到过的ERROR的情绪状态和处理方式。

下载地址 ，点击这里下载选择对应你windows 进行下载，一般都是64位的；
安装，傻瓜式安装，只不过要注意安装过程中选择安装路径。默认会让你安装到一个叫Program Files的位置，注意这里是有空格的，推荐创建一个没有空格的目录（有的人喜欢叫它文件夹）；
配置环境变量，环境变量这个东西理解就是linux中的profile，他能提供全局的命令使用。至于怎么配置，已经被好多大佬写成了傻瓜的不能再傻瓜的操作了。具体操作我会贴出一篇文章链接，在没有贴出来之前，请自行搜索。；
测试，以上内容安装好了，打开命令行（windows+R__cmd）输入java -version，返回的结果中显示你安装的java版本就说明已经成功安装了java环境；

安装python环境

注意敲黑板划重点我们这里介绍的是spark1.6.0版本安装，这个版本的是不支持python3.5.X版本以下的版本的。so，我们此次安装的python版本为3.5.6

python的版本安装其实有很多种方法，去官网下载傻瓜式操作安装、使用源码安装、使用编程工具下载安装。我们今天说的是一个比较厉(niu)害(bi)的安装方法：使用anaconda安装

anaconda能提供多个环境的python，且互相之间可以随意切换。能让你的电脑中存在多个python环境，想要用那个就让那个生效。不仅提供了编程环境，附带的还有一些编程工具，比较强大的就是Jupyter，提供列斯python notebook的编程工具，能让我们来做页面编程。

说说如何安装anaconda？别闹了，我怕有人打我，说这也用教？那我就简单说一下
网络下载–傻瓜安装
只需要你点点点，就能安装成功了。
安装完成之后，打开anaconda navigator的应用程序，能看到你当前安装默认的python环境。

-广志在这里小坑你一下，上面给出的下载链接，安装的环境都不是我们想要的，而且这个环境是默认生效的。也就是说，它直接替换了你电脑上原来安装的任何python环境，不过不用担心。我们既然无法接受就改变他。
打开命令行windows + R

输入

conda info -e   # 查看当前安装的python环境

# conda environments:
#
base * D:\ProgramData\Anaconda3

显示的内容如上（路径是广志电脑上的安装路径）

输入

#创建一个名为py35的环境(英文名字可以随便起，写上你女神的名字都没问题)，指定Python版本是3.5（不用管是3.5.x，conda会为我们自动寻找3.5.x中的最新版本）
conda create --name py35 python=3.5

会自动显示一堆下载进度

再次执行步骤1的操作，就可以看到两条记录，说明已经有两个环境在我们的机器中了，但是有个*标识了现在生效的环境。我们需要将环境切换为我们当前安装的py35

conda activate py35

然后通过命令查询就会发现已经激活了你的排映35

 conda info -e # 查看anaconda环境中激活的python环境

python -V # 查看当前电脑中的python环境

多说一句，如果手抖安装错了python环境，但是他已经在那了，如何删除这个不想要碍眼东东呢？

conda remove --name python34 --all  #删除一个已有环境

安装hadoop

1. 首先是下载hadoop2.6.0安装包，这里点击就可以下载。

2. 下载之后进行解压到一个目录中

3. 推荐目录的地址中也没有空格。

使用解压工具就可以解压，推荐360解压在关掉一些全家桶的提示之后，用起来很顺畅。就是有的时候解压7z的文件有点慢。推荐目录的地址中也没有空格。使用解压工具就可以解压，推荐360解压在关掉一些全家桶的提示之后，用起来很顺畅。就是有的时候解压7z的文件有点慢。

4. 然后要下载binaries文件

（这里给出的是github地址），这个类似于只适用于windows的编译文件。还别说，没这个还真不行。可以自己编译（这里给出的是github地址），这个类似于只适用于windows的编译文件。还别说，没这个还真不行。可以自己编译

5. 东西都放好了之后，又要去指定环境变量了

HADOOP_HOME:D:\Soft\hadoop-2.7.6
PATH里面添加上：;%HADOOP_HOME%\bin;

6. 检验hadoop 环境是否正确

hadoop version

返回显示的内容能正常显示hadoop版本。说明环境变量生效。

7. 修改hadoop配置，设置为单机模式。

7.1) core-site.xml

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/Soft/hadoop-2.6.0/workplace/tmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
<description>HDFS的URI，文件系统://namenode标识:端口号</description>
</property>
<configuration>

7.2) hdfs-site.xml

<configuration>
<!-- 这个参数设置为1，因为是单机版hadoop -->
<property>
<name>dfs.replication</name>
<value>1</value>
<description>副本个数，配置默认是3,应小于datanode机器数量</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/D:/Soft/hadoop-2.7.6/workplace/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/D:/Soft/hadoop-2.7.6/workplace/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
</configuration>

7.3) mapred-site.xml

<--没有就将mapred-site.xml.template重命名为mapred-site.xml-->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9001</value>
</property>
</configuration>

7.4) yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

7.5) hadoop-env.cmd

#文件中要指定JAVA_HOME,推荐使用绝对路径
JAVA_HOME=C:\java\jdk1.8.0_171

8 替换bin文件

将我们步骤4中下载的bin文件替换掉原有解压在bin目录的文件

9 打开命令行执行命令,格式化主节点

hdfs namenode -format

如果多次格式化，会让你选择Y或者N，确认你是否真的要格式化。正常Y就可以

10 启动hadoop

# 进入hadoop的sbin目录中
start-all.cmd

页面中会啪啪啪啪跳出来四个命令行窗口，千万别关。
这是正在启动相关的进程
点击以下两个网址验证了hadoop配置成功
资源管理页面
 节点管理页面

安装Spark

【未完待续】

广志大兄弟

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从无到有的搭建pyspark环境（windows10）

导航下载安装所需文件安装java环境安装python环境安装hadoop1. 首先是[下载hadoop2.6.0安装包](http://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz)，这里点击就可以下载。2. 下载之后进行解压到一个目录中3. 推荐目录的地址中也没有空格。4. 然后要[下载binaries]...
复制链接

扫一扫