【安装配置】spark（python） win8

米奇巨型老鼠

已于 2023-10-12 22:24:03 修改

阅读量173

点赞数 1

于 2020-02-29 16:43:14 首次发布

本文链接：https://blog.csdn.net/qq_35006861/article/details/88932773

版权

软件安装+配置专栏收录该内容

7 篇文章 0 订阅

订阅专栏

安装spark（python） win8

由于数据量过大，感觉必须要安装spark运行了，于是参考了其它博文开始安装
参考：
[1]https://jingyan.baidu.com/article/08b6a591bdb18314a80922a0.html
[2]https://blog.csdn.net/zhongjunlang/article/details/80812669
[3]https://blog.csdn.net/xrui_java7/article/details/70231221
[4]https://blog.csdn.net/zhongjunlang/article/details/80816711
[5]https://mp.weixin.qq.com/s?_biz=MzI5MzIwNDI1MQ==&mid=2650120932&idx=5&sn=fa924c8677411661a31df945b330c028&chksm=f474ba90c303338678dcd26edd5707d667c4bbe4a93b1f4e33591892cd858fd2da8db988be38&mpshare=1&scene=23&srcid=0117k0pBqKT5ucoXacbBHMfW&client=tim&ADUIN=278793087&ADSESSION=1517886579&ADTAG=CLIENT.QQ.5537.0&ADPUBNO=26752#rd

安装Hadoop

JDK1.8安装

下载https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
在这里插入图片描述
配置环境

$添加;%JAVA_HOME%\bin$
$添加.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;或者可以写成.;%JAVA_HOME%\lib;$
重新打开cmd运行javac

正式开始安装Hadoop

下载https://hadoop.apache.org/releases.html
在这里插入图片描述

这里下了2.85的版本（为版本匹配已全部修改为2.71版）
下载winutils ，https://github.com/steveloughran/winutils,下载之后直接解压,将bin目录里的内容直接覆盖到hadoop的bin
path添加路径‘E:\hadoop\hadoop-2.8.5\bin’
下面根据参考博文[3]的内容配置（以下分割线以内的配置文件内容来源于博文[3]）
——————————————我是分割线———————————————————
文件1:D:\hadoop\etc\hadoop\hadoop-env.cmd jdk路径不要有空格

set JAVA_HOME=D:\RequiredTools\Java\jdk8u45

文件2:D:\hadoop\etc\hadoop\core-site.xml

  <configuration>
    <property>  
　　　　<name>fs.default.name</name>  
　　　　<value>hdfs://localhost:9000</value>  
　　 </property>     
  </configuration>

文件3:D:\hadoop\etc\hadoop\hdfs-site.xml

<configuration>
<property>  
　　<name>dfs.replication</name>  
　　<value>1</value>  
</property>
<property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/hadoop/data/dfs/datanode</value>
</property> 
</configuration>

文件4:D:\hadoop\etc\hadoop\mapred-site.xml mapred-site.xml是复制mapred-site.xml.template,去掉template

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
</configuration>

文件5:D:\hadoop\etc\hadoop\yarn-site.xml

<configuration>
    <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
    </property>
    <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

——————————————我是分割线———————————————————
运行hdfs namenode -format 没有错误，应该是成功了
在这里插入图片描述
启动，弹出了四个框，安装成功

输入地址http://localhost:8088

在输入http://localhost:50070 ，额，打不开
百度之后的解决方法是关掉电脑连接的VPN，先不去试了，继续安装

安装spark

下载Spark http://spark.apache.org/downloads.html
解压，添加环境变量
在这里插入图片描述
在将以下添加到path
%SPARK_HOME%
%SPARK_HOME%\bin
%SPARK_HOME%\sbin

将下面的文件夹pyspark复制到python安装目录E:\Program Files (x86)\Anaconda3\Lib\site-packages文件夹
在这里插入图片描述
pip安装python的py4j库
为了能在IPython使用，打开cmd 输入set IPYTHON=1
并在spark安装目录输入bin\pyspark
成功
测试，模块导入成功，但是测试代码仍有些问题，明天解决