222.73.250.210
hadoop-->hadoop
hadoop jar newthree.jar newthree test threeout
格式化命令bin目录下 (eric为id标识,各个node必须一致)
./hdfs namenode -format -clusterid eric
-----------------------------------------------------------------------------------------
下载地址:http://hadoop.apache.org/common/releases.html
测试版本:hadoop-1.0.1.tar.gz
参考资料:http://www.cnblogs.com/xia520pi/category/346943.html
节点安排及网络拓扑:
节点类型 节点IP 节点hostname
master节点 222.73.250.143 master
slave节点 222.73.250.143 master(此时,master既是master节点,也是slave节点)
222.73.250.228 salve1
222.73.250.153 slave2
secondaryName节点 222.73.250.143 master(此时,master既是master节点,也是slave节点,也是secondaryNameNode)
1.建立ssh互信(参考csdn博客:linux sra密钥 (服务器之间交互不需要输入密码)) ssh-keygen -t rsa
-----======-----
安装JDK 此处省去
编辑"/etc/profile"文件
vi /etc/profile
export JAVA_HOME=/usr/java/jdk1.6.0_31
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
-----======-----
2.安装/配置 hadoop-1.0.1.tar.gz
1)解压到 /usr/local 目录下 并改名为hadoop
tar -xzvf hadoop-1.0.1.tar.gz
注:如果是创建的hadoop用户的话把权限给给hadoop用户
chown –R hadoop:hadoop hadoop #将文件夹"hadoop"读权限分配给hadoop用户
在"/usr/local/hadoop"下面创建tmp文件夹
cd /usr/local/hadoop
mkdir tmp
2)修改"/etc/profile"文件,把Hadoop的安装路径添加到"/etc/profile"中
vi /etc/profile
添加如下内容
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME_WARN_SUPPRESS=1 --取消hadoop警告
source 生效
source /etc/profile
Hadoop配置文件在conf目录下,之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。由于Hadoop发展迅速,代码量急剧增加,代码开发分为了core,hdfs和map/reduce三部分,配置文件也被分成了三个core-site.xml、hdfs-site.xml、mapred-site.xml。core-site.xml和hdfs-site.xml是站在HDFS角度上配置文件;core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件
cd /usr/local/hadoop/conf/
3)配置hadoop-env.sh,文件末尾添加
export JAVA_HOME=/usr/jdk1.6.0_22
如果ssh端口不是默认的22,添加如下配置
export HADOOP_SSH_OPTS="-p 33"
4)配置core-site.xml文件-->修改Hadoop核心配置文件core-site.xml,这里配置的是HDFS的地址和端口号。
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value> (注:请先在 /usr/local/hadoop目录下建立 tmp 文件夹)
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://222.73.250.143:9000</value> master节点ip
</property>
</configuration>
注:如没有配置hadoop.tmp.dir参数,此时系统默认的临时目录为:/tmp/hadoo-hadoop。而这个目录在每次重启后都会被干掉,必须重新执行format才行,否则会出错。
5)配置hdfs-site.xml文件,修改Hadoop中HDFS的配置,配置的备份方式默认为3。
<configuration>
<property>
<name>dfs.replication</name> (注:replication 是数据副本数量,默认为3,salve少于3台就会报错)
<value>1</value>
</property>
</configuration>
6)配置mapred-site.xml文件,修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://222.73.250.143:9001</value>
</property>
</configuration>
7)配置masters文件,添加master机器ip
222.73.250.143
8) hadooop通用配置完毕,scp到各个slave机器上
scp -P 22 -r /usr/local/hadoop root@222.73.250.228:/usr/local
...
注:
1.复制过去需要改权限的话,别忘了改下权限
2.别忘了slave机器也要修改/etc/profile文件 配置HADOOP_HOME ,更被忘了修改后要source...
9)配置slaves文件(Master主机特有,配置slave节点)
222.73.250.228
222.73.250.153
4.3 启动及验证
1)格式化HDFS文件系统 在"Master.Hadoop"上使用普通用户hadoop进行操作。(备注:只需一次,下次启动不再需要格式化,只需 start-all.sh)
cd /usr/local/hadoop/bin
hadoop namenode -format
注:有个警告Warning: $HADOOP_HOME is deprecated. 解决方法==
2)启动hadoop
注:在启动前有必要的话先关闭集群中所有机器的防火墙(service iptables stop),不然会出现datanode开后又自动关闭。
3)验证
a.用"jps"命令
b.用"hadoop dfsadmin -report"
5、常见问题FAQ
1.关于 Warning: $HADOOP_HOME is deprecated.
解决方案一:编辑"/etc/profile"文件,去掉HADOOP_HOME的变量设定,重新输入hadoop fs命令,警告消失。
解决方案二:编辑"/etc/profile"文件,添加一个环境变量,之后警告消失:
export HADOOP_HOME_WARN_SUPPRESS=1
解决方案三:编辑"hadoop-config.sh"文件,把下面的"if - fi"功能注释掉。
6 常用命令
hadoop fs -put /root/aaa.txt /user/root 上载/root/aaa.txt文件到hadoop
hadoop fs -get /user/rootaaa.txt /root 下载aaa.txt到本地/root目录下
hadoop-->hadoop
hadoop jar newthree.jar newthree test threeout
格式化命令bin目录下 (eric为id标识,各个node必须一致)
./hdfs namenode -format -clusterid eric
-----------------------------------------------------------------------------------------
下载地址:http://hadoop.apache.org/common/releases.html
测试版本:hadoop-1.0.1.tar.gz
参考资料:http://www.cnblogs.com/xia520pi/category/346943.html
节点安排及网络拓扑:
节点类型 节点IP 节点hostname
master节点 222.73.250.143 master
slave节点 222.73.250.143 master(此时,master既是master节点,也是slave节点)
222.73.250.228 salve1
222.73.250.153 slave2
secondaryName节点 222.73.250.143 master(此时,master既是master节点,也是slave节点,也是secondaryNameNode)
1.建立ssh互信(参考csdn博客:linux sra密钥 (服务器之间交互不需要输入密码)) ssh-keygen -t rsa
-----======-----
安装JDK 此处省去
编辑"/etc/profile"文件
vi /etc/profile
export JAVA_HOME=/usr/java/jdk1.6.0_31
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
-----======-----
2.安装/配置 hadoop-1.0.1.tar.gz
1)解压到 /usr/local 目录下 并改名为hadoop
tar -xzvf hadoop-1.0.1.tar.gz
注:如果是创建的hadoop用户的话把权限给给hadoop用户
chown –R hadoop:hadoop hadoop #将文件夹"hadoop"读权限分配给hadoop用户
在"/usr/local/hadoop"下面创建tmp文件夹
cd /usr/local/hadoop
mkdir tmp
2)修改"/etc/profile"文件,把Hadoop的安装路径添加到"/etc/profile"中
vi /etc/profile
添加如下内容
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME_WARN_SUPPRESS=1 --取消hadoop警告
source 生效
source /etc/profile
Hadoop配置文件在conf目录下,之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。由于Hadoop发展迅速,代码量急剧增加,代码开发分为了core,hdfs和map/reduce三部分,配置文件也被分成了三个core-site.xml、hdfs-site.xml、mapred-site.xml。core-site.xml和hdfs-site.xml是站在HDFS角度上配置文件;core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件
cd /usr/local/hadoop/conf/
3)配置hadoop-env.sh,文件末尾添加
export JAVA_HOME=/usr/jdk1.6.0_22
如果ssh端口不是默认的22,添加如下配置
export HADOOP_SSH_OPTS="-p 33"
4)配置core-site.xml文件-->修改Hadoop核心配置文件core-site.xml,这里配置的是HDFS的地址和端口号。
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value> (注:请先在 /usr/local/hadoop目录下建立 tmp 文件夹)
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://222.73.250.143:9000</value> master节点ip
</property>
</configuration>
注:如没有配置hadoop.tmp.dir参数,此时系统默认的临时目录为:/tmp/hadoo-hadoop。而这个目录在每次重启后都会被干掉,必须重新执行format才行,否则会出错。
5)配置hdfs-site.xml文件,修改Hadoop中HDFS的配置,配置的备份方式默认为3。
<configuration>
<property>
<name>dfs.replication</name> (注:replication 是数据副本数量,默认为3,salve少于3台就会报错)
<value>1</value>
</property>
</configuration>
6)配置mapred-site.xml文件,修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://222.73.250.143:9001</value>
</property>
</configuration>
7)配置masters文件,添加master机器ip
222.73.250.143
8) hadooop通用配置完毕,scp到各个slave机器上
scp -P 22 -r /usr/local/hadoop root@222.73.250.228:/usr/local
...
注:
1.复制过去需要改权限的话,别忘了改下权限
2.别忘了slave机器也要修改/etc/profile文件 配置HADOOP_HOME ,更被忘了修改后要source...
9)配置slaves文件(Master主机特有,配置slave节点)
222.73.250.228
222.73.250.153
4.3 启动及验证
1)格式化HDFS文件系统 在"Master.Hadoop"上使用普通用户hadoop进行操作。(备注:只需一次,下次启动不再需要格式化,只需 start-all.sh)
cd /usr/local/hadoop/bin
hadoop namenode -format
注:有个警告Warning: $HADOOP_HOME is deprecated. 解决方法==
2)启动hadoop
注:在启动前有必要的话先关闭集群中所有机器的防火墙(service iptables stop),不然会出现datanode开后又自动关闭。
3)验证
a.用"jps"命令
b.用"hadoop dfsadmin -report"
5、常见问题FAQ
1.关于 Warning: $HADOOP_HOME is deprecated.
解决方案一:编辑"/etc/profile"文件,去掉HADOOP_HOME的变量设定,重新输入hadoop fs命令,警告消失。
解决方案二:编辑"/etc/profile"文件,添加一个环境变量,之后警告消失:
export HADOOP_HOME_WARN_SUPPRESS=1
解决方案三:编辑"hadoop-config.sh"文件,把下面的"if - fi"功能注释掉。
6 常用命令
hadoop fs -put /root/aaa.txt /user/root 上载/root/aaa.txt文件到hadoop
hadoop fs -get /user/rootaaa.txt /root 下载aaa.txt到本地/root目录下