一、安装hadoop
1、下载并安装JDK,并设置JAVA_HOME,JDK路径不能有空格
2、下载hadoop并解压(我用的版本是2.8.3)
下载地址:http://hadoop.apache.org/releases.html
历史版本下载地址:https://archive.apache.org/dist/hadoop/common/
3、下载winutils并解压(我的解压路径为D:\tools\hadoop\)
下载地址:https://github.com/steveloughran/winutils
将相应版本文件夹下面的bin目录覆盖第2步解压后的文件4、进入 \etc\hadoop 目录下修改 hadoop 配置文件
4.1、core-site.xml(配置默认hdfs的访问端口和临时目录)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/tools/hadoop/tmp</value>
</property>
</configuration>
4.2、hdfs-site.xml(设置复制数为1,即不进行复制。namenode文件路径以及datanode数据路径。)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/tools/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/tools/hadoop/data/dfs/datanode</value>
</property>
</configuration>
4.3、将mapred-site.xml.template 名称修改为 mapred-site.xml 后再修改内容(设置mr使用的框架,这里使用yarn)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4.4、yarn-site.xml(这里yarn设置使用了mr混洗)
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
5、设置HADOOP_HOME环境变量(否则下载文件会报未设置HADOOP_HOME的错误)
添加系统变量:HADOOP_HOME=D:\tools\hadoop\hadoop-2.8.3
修改系统变量Path,在后面加入:,%HADOOP_HOME%\bin
6、用cmd进入 D:\tools\hadoop\hadoop-2.8.3\bin 目录,格式化hdfs
在cmd中运行命令 hdfs namenode -format
7、用cmd进入 D:\tools\hadoop\hadoop-2.8.3\sbin 目录
在cmd中运行命令start-all.cmd
出现找不到hadoop文件的错误时,可以在start-all.cmd文件上方加入hadoop文件所在位置目录
cd D:\tools\hadoop\hadoop-2.8.3\bin
8、在浏览器地址栏中输入:http://localhost:8088 查看集群状态
9、在浏览器地址栏中输入:http://localhost:50070 查看Hadoop状态
10、执行stop-all.cmd关闭Hadoop
二、使用 HDFS Explorer 查看和操作hdfs文件
暂未找到官方下载地址,请自行下载
三、集群配置(安装过程与上面一样,我这里配置三台集群,未经过验证)
1、修改core-site.xml,将localhost改成真实ip,加入如下配置
<property>
<!--检查时间,同步时间 -->
<name>fs.checkpoint.period</name>
<value>60</value>
</property>
<property>
<!--检查大小,同步大小 -->
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>
2、修改hdfs-site.xml,将dfs.replication修改为2(不超过节点数量),加入如下配置
<property>
<!--检查节点-->
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.1.1:50090</value>
</property>
3、编辑slaves文件,添加从节点信息,将localhost改为如下内容(请根据实际ip修改)
192.168.1.2
192.168.1.3
4、复制安装包到另外两台服务器,删除slaves文件,并增加masters文件,内容为主节点ip
192.168.1.1
5、分别格式化,然后启动