1、使用hadoop-2.5.0-cdh5.3.6.tar.gz,上传到虚拟机的/usr/local目录下。(http://archive.cloudera.com/cdh5/cdh/5/)
2、将hadoop包进行解压缩:tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz
3、对hadoop目录进行重命名:mv hadoop-2.5.0-cdh5.3.6 hadoop
4、配置hadoop相关环境变量
vi ~/.bashrc
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
5、创建/usr/local/data目录
修改core-site.xml<property> <name>fs.default.name</name> <value>hdfs://sparkproject1:9000</value> </property> |
修改hdfs-site.xml
//用于确定将HDFS文件系统的元信息保存在什么目录下。若设置为多个目录,那这些目录下都保存着元信息的多个备份。 <property> <name>dfs.name.dir</name> <value>/usr/local/data/namenode</value> </property>
//用于确定将HDFS文件系统的数据保存在什么目录下。将这个参数设置为多个分区上目录,即可将HDFS建在不同分区上 <property> <name>dfs.data.dir</name> <value>/usr/local/data/datanode</value> </property>
//dfs.tmp.dir在安装配置HADOOP的时候,一定要更改hadoop.tmp.dir ,机器意外断电,服务重启后,/tmp 下的目录被清空,默认位置在/tmp/{$user} <property> <name>dfs.tmp.dir</name> // <value>/usr/local/data/tmp</value> </property> //hadoop的备份系数,每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3. <property> <name>dfs.replication</name> <value>2</value> </property>
参考: http://blog.sina.com.cn/s/blog_48a45b95010119cy.html |
修改mapred-site.xml//名称mapreduce.framework.name指的是使用yarn运行mapreduce程序 <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> |
修改yarn-site.xml//名称yarn.resourcemanager.hostname指的是运行ResourceManager机器所在的节点位置 <property> <name>yarn.resourcemanager.hostname</name> <value>sparkproject1</value> </property> //yarn.nodemanager.aux-services 指的是NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> |
修改slaves文件sparkproject2 sparkproject3 |
在另外两台机器上搭建hadoop
1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将sparkproject1上面的hadoop安装包和~/.bashrc配置文件都拷贝过去。(scp -r hadoop root@sparkproject2:/usr/local)
2、要记得对.bashrc文件进行source,以让它生效。
3、记得在sparkproject2和sparkproject3的/usr/local目录下创建data目录。
启动hdfs集群
1、格式化namenode:在sparkproject1上执行以下命令,hdfs namenode -format
2、启动hdfs集群:start-dfs.sh
3、验证启动是否成功:
jps、50070端口
sparkproject1:namenode、secondarynamenode
sparkproject2:datanode
sparkproject3:datanode
以下是部署单机的日志:
4、hdfs dfs -put hello.txt /hello.txt
启动yarn集群
1、启动yarn集群:start-yarn.sh
2、验证启动是否成功:
jps、8088端口
sparkproject1:resourcemanager、nodemanager
sparkproject2:nodemanager
sparkproject3:nodemanager
以下是部署单机的日志:
然后就可以打开了: