【安装配置】spark(python) win8

安装spark(python) win8

由于数据量过大,感觉必须要安装spark运行了,于是参考了其它博文开始安装
参考:
[1]https://jingyan.baidu.com/article/08b6a591bdb18314a80922a0.html
[2]https://blog.csdn.net/zhongjunlang/article/details/80812669
[3]https://blog.csdn.net/xrui_java7/article/details/70231221
[4]https://blog.csdn.net/zhongjunlang/article/details/80816711
[5]https://mp.weixin.qq.com/s?_biz=MzI5MzIwNDI1MQ==&mid=2650120932&idx=5&sn=fa924c8677411661a31df945b330c028&chksm=f474ba90c303338678dcd26edd5707d667c4bbe4a93b1f4e33591892cd858fd2da8db988be38&mpshare=1&scene=23&srcid=0117k0pBqKT5ucoXacbBHMfW&client=tim&ADUIN=278793087&ADSESSION=1517886579&ADTAG=CLIENT.QQ.5537.0&ADPUBNO=26752#rd

安装Hadoop

JDK1.8安装

下载https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
在这里插入图片描述
配置环境
在这里插入图片描述
添加;%JAVA_HOME%\bin
添加.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;或者可以写成.;%JAVA_HOME%\lib;
重新打开cmd运行javac
在这里插入图片描述

正式开始安装Hadoop

下载https://hadoop.apache.org/releases.html
在这里插入图片描述
在这里插入图片描述
这里下了2.85的版本(为版本匹配已全部修改为2.71版)
下载winutils ,https://github.com/steveloughran/winutils,下载之后直接解压,将bin目录里的内容直接覆盖到hadoop的bin
path添加路径‘E:\hadoop\hadoop-2.8.5\bin’
下面根据参考博文[3]的内容配置(以下分割线以内的配置文件内容来源于博文[3])
——————————————我是分割线———————————————————
文件1:D:\hadoop\etc\hadoop\hadoop-env.cmd jdk路径不要有空格

set JAVA_HOME=D:\RequiredTools\Java\jdk8u45 

文件2:D:\hadoop\etc\hadoop\core-site.xml

  <configuration>
    <property>  
    <name>fs.default.name</name>  
    <value>hdfs://localhost:9000</value>  
   </property>     
  </configuration>

文件3:D:\hadoop\etc\hadoop\hdfs-site.xml

<configuration>
<property>  
  <name>dfs.replication</name>  
  <value>1</value>  
</property>
<property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/hadoop/data/dfs/datanode</value>
</property> 
</configuration>

文件4:D:\hadoop\etc\hadoop\mapred-site.xml mapred-site.xml是复制mapred-site.xml.template,去掉template

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
</configuration>

文件5:D:\hadoop\etc\hadoop\yarn-site.xml

<configuration>
    <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
    </property>
    <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

——————————————我是分割线———————————————————
运行hdfs namenode -format 没有错误,应该是成功了
在这里插入图片描述
启动,弹出了四个框,安装成功
在这里插入图片描述
输入地址http://localhost:8088
在这里插入图片描述
在输入http://localhost:50070 ,额,打不开
百度之后的解决方法是关掉电脑连接的VPN,先不去试了,继续安装

安装spark

下载Spark http://spark.apache.org/downloads.html
解压,添加环境变量
在这里插入图片描述
在将以下添加到path
%SPARK_HOME%
%SPARK_HOME%\bin
%SPARK_HOME%\sbin

将下面的文件夹pyspark复制到python安装目录E:\Program Files (x86)\Anaconda3\Lib\site-packages文件夹
在这里插入图片描述
pip安装python的py4j库
为了能在IPython使用,打开cmd 输入set IPYTHON=1
并在spark安装目录输入bin\pyspark
成功
测试,模块导入成功,但是测试代码仍有些问题,明天解决
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值