前提(1 jdk1.8安装配置 2 scala 安装配置 )该部分省略
spark安装配置
我们到Spark官网进行下载:http://spark.apache.org/ ,我们选择带有Hadoop版本的Spark,如图所示:
这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“Program Files”这样的文件夹名是不被允许的。我们在D盘新建一个Spark文件夹存放,如图所示:
接下来配置环境变量了,D:\spark\bin 放到环境变量中。
修改spark 文件夹以及文件权限
右击 spark 取消勾选只读,隐藏,在隐私设置中勾选 完成控制。
安装好spark 后我们来安装hadoop2.7.1
在Hadoop Releases里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop 2.7的(在Spark安装的第一个步骤中,我们选择的是Pre-built for Hadoop 2.7
),我这里选择2.7.1版本,选择好相应版本并点击后,进入详细的下载页面,如下图所示:
1 下载并解压到指定目录,我这里是D:\hadoop271
2 新建环境变量,HADOO_HOME D:\HADOOP271,然后再设置该目录下的bin目录到系统变量的PATH下,我这里也就是D:\hadoop271\bin,
3 下载hadoopwindows 点击
4 下载完成后替换文件
将从官网下载的hadoop2.7.1中的bin和etc两个文件夹删除,使用hadooponwindows中的bin和etc代替
然后新建缺失的文件夹
5 打开目录下的etc/hadoop/hdfs-site.xml文件
修改dfs.namenode.name.dir和dfs.datanode.name.dir两个属性的值,改为刚刚创建的两个文件夹datanode和namenode的绝对路径(注意不能直接把在Windows下的路径复制粘贴,路径URL用的是斜杠不是反斜杠,而且前面还要加一个斜杠)然后保存退出
6 打开根目录下的etc/hadoop/hadoop-env.cmd文件
找到下图画出的配置,将set JAVA_HOME的值修改为你的Java虚拟机的绝对路径,如果路径中含有Program Files需要用PROGRA~1替换
7 复制hadoop.dll文件到指定目录
将根目录下的bin文件夹中的hadoop.dll文件复制到C:\Windows\System32文件夹下
8 最后测试下 hdfs namenode -format