1、修改主机名
查看主机名
hostname
更改主机名
sudo vi /etc/hostname
删除原有内容,添加如下内容
node01
重启系统,使修改生效
sudo reboot
2、映射IP地址及主机名
修改/etc/hosts文件
sudo vi /etc/hosts
在文件末尾添加以下内容,下面的IP地址根据实际的IP地址修改
192.168.113.130 node01
3、免密登录设置
(1)生成密钥对
ssh-keygen -t rsa
其中,rsa表示加密算法,输入上面一条命令后连续敲击三次回车键,系统会自动在~/.ssh目录下生成公钥(id_rsa.pub)
和私钥(id_rsa),可通过命令$ls~/.ssh查看
ls ~/.ssh
(2)追加公钥
我们以本机自己为例(连接本机),将公钥追加到~/.ssh/authorized.keys文件中
ssh-copy-id -i ~/.ssh/id_rsa.pud node01
认证文件以生成,可通过ls ~/.ssh查看
(3)免密登录验证
ssh node01
首次登陆需要输入yes
4、配置Hadoop配置文件
进入Hadoop配置文件所在目录
cd ${HADOOP_HOME}/etc/hadoop
(1)设置hadoop-env.sh
#The java implementation to use.
export JAVA_HOME=~/jdk
(2)设置core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/wmy/hadoop/tmp</value>
</property>
</configuration>
设置说明:
fs.defaultFS属性是指定默认文件系统的URI地址,一般格式为“hdfs://host:port”
host可以设置为IP地址或主机名称中的任意一个,这里设置的是主机名,port如果不设置,则使用默认端口8020,这里设置的是9000
hadoop.tmp.dir指定Hadoop的临时工作目录,设置为/home/用户名/hadoop/tmp。注意:一定要设置hadoop.tmp.dir,否则默认的tmp目录在/tmp下,
重启时tmp目录下的dfs/name文件夹会被删除,造成NameNode丢失
(3)设置hdfs-site.xml
用vi命令打开
vi hdfs-site.xml
修改为
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
// dfs.replication的默认值是3,因为伪分布式只有一个节点,所以值设置为1
(4)设置mapred-site.xml
用vi命令打开
vi mapred-site.xml
修改为
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
mapreduce.framework.name默认值为local,设置为yarn,让MaoReduce程序运行在YARN框架上
(5)设置yarn-site.xml
用vi命令
vi yarn-site.xml
修改为
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
yarn.resourcemanager.hostname属性为资源资源管理器的主机,设置为主机名或者IP地址
yarn.nodemanager.aux-services属性为节点管理器的辅助服务器,默认值是空,设置为mapreduce_shuffle
通过以上设置,我们完成了Hadoop伪分布式模式的配置。其实Hadoop可以配置的属性还有
很多,没有配置的属性就用默认值,默认属性配置存放在core-default.xml、hdfs-default.xml、
mapred-default.xml和 yarn-default.xml文件中。可以到官网查询对应文档或通过命令locate<查找
的文件名>来查找文件所在路径,再通过cat命令查看其内容,例如:
$locate core-default.Xml
/home/hadoop/soft/hadoop-2.7.3/share/doc/hadoop/hadoop-project-dist/hadoop-common/ core-default.Xml
$
Cat /home/hadoop/soft/hadoop-2.7.3/share/doc/hadoop/hadoop-project-dist/hadoop-common/core de fault.Xml
6.格式化HDFS
格式化的过程是创建初始目录和文件系统结构的过程。执行以下命令格式化HDFS。$ hdfs
namenode-format
注意:格式化只需进行一次,下次启动不要再次格式化,否则会缺失DataNode进程。7.启动Hadoop
采用下面命令启动HDFS。
start-dfs.sh
用jps命令验证,正确启动会出现以下3个进程。
Jps
NameNode DataNode
SecondaryNameNode
采用下面命令启动YARN。
start-yarn.sh
8.验证Hadoop进程
用jps命令验证,正确启动将多出以下两个进程。$ips
ResourceManager NodeManager
提示:start-dfs.sh、start-yarn.sh也可以合并成下面一个命令。$start-all.sh
如果某个主机少了某个进程,应该到相应主机去找对应的log查看原因,log存放在$HADOOPHOME /logs 目录下。例如,若少了DataNode进程,那么就切换到$HADOOP_ HOME /logs目录下,查看DataNode相关的log,找到含有“WARN”“Error""Exception”等的关键字句,通过上网搜索关键字句找到解决问题的办法。
$cd $IHADOOPHOME/logs
$cat hadoop-hadoop-datanode-nodel.log 也可以通过vi命令查看。
$ vi hadoop-hadoop-datanode-nodel.log 最新出现的错误,其信息都在文件末尾。9.通过Web访问Hadoop
(1)HDFS Web界面
在Windows浏览器中,输人网址http://192.168.113.130:50070,可以查看NameNode和DataNode 的信息,如图2-28所示。
在Windows浏览器中,输入网址http://192.168.113.130:50090,可以查看SecondaryNameNode