上一节中我们了解了单机模式,这一节中,会说明第二种模式伪分布式模式,这种模式相比于单机模式,增加了检查内存使用情况,hdfs输入输出,以及其他的守护进程交互。
配置伪分布式主要是配置etc/hadoop中的配置文件,分别是core-site.xml、mapred-site.xml以及hdfs-site.xml。
core-site.xml(配置namenode)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml(配置datanode)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml(配置jobtracker/tasktracker)
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
完成上述配置后,检测一下ssh的安装情况,要配置成免密登录的方式,具体实现方式
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
完成上述步骤后,需要首先格式化一下文件系统,具体实现方式:
$ bin/hdfs namenode -format
完成上述步骤后,需要启动hadoop,这时候需要用到sbin目录中的sh脚本,如果使用的是root账户启动,使用之前需要在使用的脚本之前,加入以下配置:
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
例如,我要使用start-dfs.sh脚本,就需要把上述的内容粘贴到脚本中,然后就可以直接运行脚本。
运行完脚本后,可以使用jps命令查看启动的守护进程。