首先参考一下官网的链接 发在这里 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
我这里的虚拟机版本是VMware16.05 centos6.5 hadoop2.5.0 下载链接:http://archive.apache.org/dist/hadoop/common/
第一步:当然是上传解压
tar -zxvf hadoop-2.5.0.tar.gz
第二步:配置JDK
安装过程比较简单,我到时候再贴个比较好的博客在这里。可以自行百度。
第三步:配置环境
1.配置文件目录
修改env.sh
在mapred-env.sh,yarn-env.sh,hadoop-env.sh
export JAVA_HOME=
将这一句修改为自己的JAVA_HOME,忘记了的话,可以使用echo ${JAVA_HOME}输出
2.修改core-site.xml
1.官网的基本配置项
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
将localhost修改为自己虚拟机的IP,这一步其实就是配置namenode节点在哪台虚拟机上。
2.官网上找到这个core-defalut.xml 在core-xite里面添加下面这些,覆盖原来的配置。
<property>
<name>hadoop.tmp.dir</name>
<value></value>
</property>
<property>
<name>fs.trash.interval</name>
<value>10080</value>
</property>
第一项是修改临时文件的存放位置,第二项是修改删除文件的保留时间,默认是0。
3.修改slaves
加上虚拟机的IP
实际上是配置DataNode节点
4.修改hdfs-site.xml
1.官网基本配置
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
修改hdfs上文件的副本数为1
2.添加 覆盖hdfs-default.xml的配置项 可以在官网找到这个配置项 修改IP即可
<property>
<name>dfs.namenode.secondary.http-address</name>
<value></value>
</property>
这里实际上是配置secondarynamenode的节点在哪台服务器上
5.修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value></value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>640800</value>
</property>
第一项:map task到reduce任务之间需要shuffle一下
第二项:resource manager在哪台服务器上
第三项:启用日志聚合功能,日志聚合开启后保存到HDFS上。
第四项:聚合后的日志在HDFS上保存多长时间,单位为s
6.修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value></value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value></value>
</property>
</configuration>
第一项:MapReduce任务启动在yarn上
第二项:MapReduce JobHistory Server地址
第三项:MapReduce JobHistory Server Web UI地址
笔者注:这里删掉了一些Value值可以根据自己的IP和官网端口进行配置
3.配置无密钥登录
1.cd ~
2.先切换到普通用户。然后执行ssh-keygen -t rsa。
3.执行后会在用户目录生产.ssh目录和id_rsa、id_rsa.pub文件。然后执行cd .ssh/
4.cp id_rsa.pub authorized_keys中
4.windows页面访问
1.http://ip:50070 文件系统页面
2.http://ip:8088 任务页面
注:如果不能打开,请百度Ubuntu或者centos关闭防火墙的方式。
5.开启服务
先cd hadoop目录
1.sbin/start-all.sh 一次性全部启动 在伪分布式下可以使用 单不建议
2.分模块启动
启动namenode DataNode secondarynamenode
sbin/start-dfs.sh
启动resource manager 和node manager
sbin/start-yarn.sh
3.分组件启动
1.sbin/hadoop-daemon.sh start namenode
2.sbin/hadoop-daemon.sh start datanode
3.sbin/yarn-daemon.sh start resourcemanager
4.sbin/yarn-daemon.sh start nodemanager
5.启动mapreduce history 在8088页面点击history可以查看细节
sbin/mr-jobhistory-daemon.sh start historyserver
作者小白,如果错误请及时指出,下次重新搭建时会把所有的截屏也贴上来。