如果 hadoop 对应的 java进程运行在一个物理机器中,我们将之称为伪分布,如果它运行在多台物理机器中,就称其为分布式。
环境的准备
设置ip地址
采用host only网络连接方式,桌面右键网络连接,选择
edit connections
,设置静态ip(vmnet1保持一致)
执行命令 service network restart(重启网络服务,使ip生效)
验证: ifconfig关闭防火墙
执行命令 service iptables stop
验证: service iptables status关闭防火墙的自动运行
执行命令 chkconfig iptables off
验证: chkconfig –list | grep iptables设置主机名
执行命令: vi /etc/sysconfig/network
需重启才可生效
验证:hostname(显示是否为修改的主机名)ip与hostname绑定
执行命令 vi /etc/hosts
验证: ping 主机名设置ssh免密码登陆
执行命令 :
- (1)ssh-keygen -t rsa
- (2)cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证:ssh 主机名
JDK 和 Hadoop 的安装
下载解压较为容易,主要在环境变量的添加和修改
JDK
修改 /etc/profile 并添加 JAVA_HOME 以及 PATH
export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATHHadoop
修改/etc/profile 并添加 HADOOP_HOME以及PATH
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
Hadoop 配置文件的配置
进入 hadoop 的conf目录:
hadoop-env.sh
解注释 JAVA_HOME,并设置为正确的路径
core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://hadoop0:9000</value> # hadoop0为当前主机名 </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration>
hdfs-site.xml
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property>
mapred-site.xml
<property> <name>mapred.job.tracker</name> <value>hadoop0:9001</value> </property>
验证
格式化
hadoop namenode -format
启动
start-all.sh
验证
jps:查看进程数,是否为NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker(5个Java进程)
浏览器中查看:
http://主机名:50070
http://主机名:50030
启动时没有namenode的原因
- 没有格式化
- 环境变量设置错误
- ip与hostname绑定失败