Hadoop伪分布部署
温馨提示:配置时候一定要细心!!!
1. 安装jdk、 Hadoop
2.伪分布部署
主要配置文件 :core-site.xml、mapred-site.xml、yarn-site.xml、hdfs-site.xml
文件名 | 属性名 | 属性值 | 含义 |
---|---|---|---|
core-site.xml | fs.defaultFS | hdfs://localhost:9000 | NameNode地址 |
hadoop.tmp.dir | /home/hadoop01/hadoop/tmp | Hadoop临时工作目录 | |
mapred-site.xml | mapreduce.framework.name | yarn | 指定mapreduce运行框架 |
yarn-site.xml | yarn.resourcemanager.hostname | ip | ResourceManager的ip地址 |
yarn.nodemanager.aux-services | mapreduce_shuffle | NodeManager上运行的附属服务 | |
hdfs-site.xml | dfs.replication | 1 | 副本数 |
-
修改主机名
sudo vi /etc/hostname
,保存后重启。(根据需要判断是否需要修改主机名) -
映射ip地址及主机名
sudo vi /etc/hosts
添加本机ip 主机名
。不知道主机名终端输入hostname查看主机名。
-
免密登录
-
检查系统是否安装openssh-client和openssh-server:
sudo dpkg -l|grep ssh
-
如果没有,进行安装:
sudo apt-get install openssh-client
、sudo apt-get install openssh-server
(少哪个安装哪个) -
安装成功后进行重启ssh服务:
sudo /etc/init.d/ssh restart
-
配置ssh
- 生成密钥对:
ssh-keygen -t rsa
- 追加公钥:
ssh-copy-id -i ~/.ssh/id_rsa.pub 主机名
- 免密登录:
ssh 主机名
- 生成密钥对:
注意:在进行ssh登录时要区分root用户和普通用户
-
-
设置Hadoop配置文件(使用sudo命令进行编辑)
etc/hadoop/core-site.xml
:<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <!--临时文件夹(注意文件夹不用存在,格式化后自动生成),默认是在系统的tmp文件夹下,如果不改计算机重启的话可能会丢失--> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop01/hadoop/tmp</value> </property> </configuration>
etc/hadoop/hdfs-site.xml
:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
etc/hadoop/yarn-site.xml
:<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
etc/hadoop/mapred-site.xml
: ( 如果没有mapred-site.xml
这个文件而存在mapred-site.xml.template
对其改名或复制一份:
sudo cp ./mapred-site.xml.template mapred-site.xml
)<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
格式化NameNode:
hdfs namenode -format
-
启动HDFS:
start-dfs.sh
,查看启动的Java进程:jps
-
启动YARN:
start-yarn.sh
,查看启动的Java进程:jps
3.通过Web访问Hadoop(注意2.x与3.x端口号不同)
-
HDFS Web界面:浏览器中输入 http://localhost:9870
-
YARN Web界面:浏览器中输入 http://localhost:8088
4.常用端口
端口名称 | Hadoop2.x | Hadoop3.x |
---|---|---|
NameNode内部通信端口 | 8020/9000 | 8020/9000/9820 |
NameNode HTTP UI | 50070 | 9870 |
MapReduce查看执行任务端口 | 8088 | 8088 |
历史服务器通信端口 | 19888 | 19888 |
5.问题
-
1. openssh-server安装时,包之间的依赖关系出现问题。
解决办法:将openssh-client 卸载再重新安装。
-
2. Hadoop安装版本过高,配置文件时出错。
解决办法:官网找相应配置:http://www.apache.org/
6.体会
发现好多知识是需要自己探索的。多看,多思考,多操作。操作的时候可能按步骤操作,但往往就是会出错,所以配置这个东西一定一定要细心!!!!如有错误,欢迎指正。