配置伪分布式模式

东方富贵

已于 2023-12-06 13:04:33 修改

阅读量55

点赞数

文章标签： 1024程序员节

于 2023-10-24 09:17:30 首次发布

本文链接：https://blog.csdn.net/2301_78719234/article/details/134004096

版权

1、修改主机名
查看主机名

hostname

更改主机名

sudo vi /etc/hostname

删除原有内容，添加如下内容

node01

重启系统，使修改生效

sudo reboot

2、映射IP地址及主机名
修改/etc/hosts文件

sudo vi /etc/hosts

在文件末尾添加以下内容，下面的IP地址根据实际的IP地址修改

192.168.113.130 node01

3、免密登录设置
(1)生成密钥对

ssh-keygen -t rsa

其中，rsa表示加密算法，输入上面一条命令后连续敲击三次回车键，系统会自动在~/.ssh目录下生成公钥（id_rsa.pub）
和私钥(id_rsa)，可通过命令$ls~/.ssh查看

ls ~/.ssh

(2)追加公钥
我们以本机自己为例(连接本机)，将公钥追加到~/.ssh/authorized.keys文件中

ssh-copy-id -i ~/.ssh/id_rsa.pud node01

认证文件以生成，可通过ls ~/.ssh查看
(3)免密登录验证

ssh node01

首次登陆需要输入yes
4、配置Hadoop配置文件
进入Hadoop配置文件所在目录

cd ${HADOOP_HOME}/etc/hadoop

(1)设置hadoop-env.sh

#The java implementation to use.
export JAVA_HOME=~/jdk

(2)设置core-site.xml

<configuration>
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://node01:9000</value>
   </property>
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/wmy/hadoop/tmp</value>
   </property>
</configuration>

设置说明：
fs.defaultFS属性是指定默认文件系统的URI地址，一般格式为“hdfs://host:port”
host可以设置为IP地址或主机名称中的任意一个，这里设置的是主机名，port如果不设置，则使用默认端口8020，这里设置的是9000
hadoop.tmp.dir指定Hadoop的临时工作目录，设置为/home/用户名/hadoop/tmp。注意：一定要设置hadoop.tmp.dir,否则默认的tmp目录在/tmp下，
重启时tmp目录下的dfs/name文件夹会被删除，造成NameNode丢失
(3)设置hdfs-site.xml
用vi命令打开

vi hdfs-site.xml

修改为

<configuration>
         <property>
             <name>dfs.replication</name>
             <value>1</value>
         </property>
</configuration>

// dfs.replication的默认值是3，因为伪分布式只有一个节点，所以值设置为1
(4)设置mapred-site.xml
用vi命令打开

vi mapred-site.xml

修改为

<configuration>
      <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
      </property>
</configuration>

mapreduce.framework.name默认值为local，设置为yarn，让MaoReduce程序运行在YARN框架上
(5)设置yarn-site.xml
用vi命令

vi yarn-site.xml

修改为

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node01</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

yarn.resourcemanager.hostname属性为资源资源管理器的主机，设置为主机名或者IP地址

yarn.nodemanager.aux-services属性为节点管理器的辅助服务器，默认值是空，设置为mapreduce_shuffle
通过以上设置，我们完成了Hadoop伪分布式模式的配置。其实Hadoop可以配置的属性还有
很多，没有配置的属性就用默认值，默认属性配置存放在core-default.xml、hdfs-default.xml、
mapred-default.xml和 yarn-default.xml文件中。可以到官网查询对应文档或通过命令locate<查找
的文件名>来查找文件所在路径，再通过cat命令查看其内容，例如:
$locate core-default.Xml
/home/hadoop/soft/hadoop-2.7.3/share/doc/hadoop/hadoop-project-dist/hadoop-common/ core-default.Xml
$
Cat /home/hadoop/soft/hadoop-2.7.3/share/doc/hadoop/hadoop-project-dist/hadoop-common/core de fault.Xml
6.格式化HDFS
格式化的过程是创建初始目录和文件系统结构的过程。执行以下命令格式化HDFS。$ hdfs

namenode-format

注意:格式化只需进行一次，下次启动不要再次格式化，否则会缺失DataNode进程。7.启动Hadoop
采用下面命令启动HDFS。

start-dfs.sh

用jps命令验证，正确启动会出现以下3个进程。

Jps

NameNode DataNode
SecondaryNameNode
采用下面命令启动YARN。

start-yarn.sh

8.验证Hadoop进程
用jps命令验证，正确启动将多出以下两个进程。$ips
ResourceManager NodeManager
提示:start-dfs.sh、start-yarn.sh也可以合并成下面一个命令。$start-all.sh
如果某个主机少了某个进程，应该到相应主机去找对应的log查看原因，log存放在$HADOOPHOME /logs 目录下。例如，若少了DataNode进程，那么就切换到$HADOOP_ HOME /logs目录下，查看DataNode相关的log，找到含有“WARN”“Error""Exception”等的关键字句，通过上网搜索关键字句找到解决问题的办法。
$cd $IHADOOPHOME/logs
$cat hadoop-hadoop-datanode-nodel.log 也可以通过vi命令查看。
$ vi hadoop-hadoop-datanode-nodel.log 最新出现的错误，其信息都在文件末尾。9.通过Web访问Hadoop
(1)HDFS Web界面
在Windows浏览器中，输人网址http://192.168.113.130:50070,可以查看NameNode和DataNode 的信息，如图2-28所示。
在Windows浏览器中，输入网址http://192.168.113.130:50090,可以查看SecondaryNameNode

东方富贵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
配置伪分布式模式

例如，若少了DataNode进程，那么就切换到$HADOOP_ HOME /logs目录下，查看DataNode相关的log，找到含有“WARN”“Error""Exception”等的关键字句，通过上网搜索关键字句找到解决问题的办法。hadoop.tmp.dir指定Hadoop的临时工作目录，设置为/home/用户名/hadoop/tmp。host可以设置为IP地址或主机名称中的任意一个，这里设置的是主机名，port如果不设置，则使用默认端口8020，这里设置的是9000。
复制链接

扫一扫