一、Hadoop的安装方式
1、单机安装。除了MapReduce模块以外,其他的都不能使用。
2、伪分布式安装。利用一台主机模拟Hadoop的运行环境,可以使用Hadoop的所有模块。
3、全分布式安装。在真正的集群上去安装Hadoop。
二、伪分布式的安装
1、关闭防火墙 service iptables stop
2、修改主机名。在Hadoop集群中,主机名中不允许出现_以及-,如果出现会导致找不到这台主机。
vim /etc/sysnconfig/network
更改HOSTNAME,例如
HOSTNAME=hadoop01
source /etc/sysconfig/network
3、更改hosts文件
vim /etc/hosts
添加 ip 主机名 ,例如
192.168.60.132 hadoop01
4、配置免密互通
ssh-keygen
ssh-copy-id 用户名@主机地址,例如
ssh-copy-id root@hadoop01
5、重启计算机 reboot
6、安装jdk
7、解压Hadoop的安装包 tar -xvf hadoop-2.7.1_64bit.tar.gz
8、进入安装目录下的子目录etc下的子目录hadoop cd hadoop-2.7.1/etc/hadoop
9、编辑hadoop-env.sh vim hadoop-env.sh
10、将JAVA_HOME替换为具体的jdk安装目录, 例如
export JAVA_HOME=/home/preSoftware/jdk1.8
11、将HADOOP_CONF_DIR替换为具体的Hadoop的配置目录。例如
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
12、重新生效 source hadoop-env.sh
13、编辑core-site.xml vim core-site.xml
14、添加内容
<!-- 指定HDFS中的管理节点 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:9000</value>
</property>
<!-- 指定存储位置 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-2.7.1/tmp</value>
</property>
- 编辑hdfs-site.xml vim hdfs-site.xml
- 添加内容
<!-- hdfs中的复本数量 -->
<!-- 在伪分布式中,复本数量必须为1 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
17、将mapred-site.xml.template复制为mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
18、编辑mapred-site.xml vim mapred-site.xml
19. 添加内容:
<!-- 在Hadoop的2.0版本中,MapReduce是基于Yarn运行 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
- 配置yarn-site.xml vim yarn-site.xml
- 添加内容
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
-
Hadoop本身是主从结构,配置slaves指定从节点
vim slaves
添加从节点的地址 -
配置环境变量
vim /etc/profile
添加:
export HADOOP_HOME=/home/software/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
重新生效
source /etc/profile
-
格式化数据目录 hadoop namenode -format
如果出现Storage directory /home/software/hadoop-2.7.1/dfs/name has been successfully formatted。则证明启动成功 -
启动hadoop start-all.sh
输入命令查看进程:jps
如果出现:NodeManage、NameNode、SecondaryNameNode、ResourceManager、DataNode则证明启动成功
如果启动成功,可以在浏览器中输入地址:50070访问hadoop的页面