hadoop伪分布式安装
1. 关闭防火墙
service iptables stop
2. 修改主机名(在Hadoop集群中,主机名中不允许出现_以及-,如果出现会导致找不到这台主机。)
vim /etc/sysconfig/network
更改HOSTNAME,例如:HOSTNAME= hadoop01
source /etc/sysconfig/network
3. 更改hosts文件
vim /etc/hosts
在最后添加:ip 主机名,例如:192.168.60.132 hadoop01
4. 配置免密互通
ssh-keygen
ssh-copy-id 用户名@主机地址
例如:ssh-copy-id root@hadoop01
5. 重启虚拟机
reboot
6. 安装jdk
7. 解压hadoop的安装包
tar -xf hadoop-2.7.1_64bit.tar.gz
8. 进入安装目录下的子目录etc下的子目录hadoop
cd hadoop-2.7.1/etc/hadoop
9. 编辑hadoop-env.sh
vim hadoop-env.sh
将JAVA_HOME替换为具体的jdk安装目录, 例如:export JAVA_HOME=/home/preSoftware/jdk1.8
将HADOOP_CONF_DIR替换为具体的Hadoop的配置目录。例如:export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
重新生效: source hadoop-env.sh
10. 编辑core-site.xml
vim core-site.xml
在configuration标签中添加内容:
<!-- 指定HDFS中的管理节点 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:9000</value>
</property>
<!-- 指定存储位置 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-2.7.1/tmp</value>
</property>
11. 编辑hdfs-site.xml
vim hdfs-site.xml
在configuration标签中添加内容:
<!-- hdfs中的复本数量 -->
<!-- 在伪分布式中,复本数量必须为1 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
12. 将mapred-site.xml.template复制为mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
13. 编辑mapred-site.xml
vim mapred-site.xml
在configuration标签中添加内容:
<!-- 在Hadoop的2.0版本中,MapReduce是基于Yarn运行 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
14. 配置 yarn-site.xml
vim yarn-site.xml
在configuration标签中添加内容:
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
15. Hadoop本身是主从结构,配置slaves指定从节点
vim slaves
添加从节点地址
16. 配置环境变量
vim /etc/profile
添加:
export HADOOP_HOME=/home/software/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
重新生效:source /etc/profile
17. 格式化数据目录
hadoop namenode -format
18. 在hadoop的子目录sbin下启动
hadoop start-all.sh
通过jps命令查看
19. 如果启动成功,可以在浏览器中输入地址:50070访问hadoop的页面
20. 下次启动无需格式化数据节点