配置伪分布式模式

1、修改主机名
查看主机名

hostname


更改主机名

sudo vi /etc/hostname


删除原有内容,添加如下内容

node01


重启系统,使修改生效

sudo reboot


2、映射IP地址及主机名
修改/etc/hosts文件

sudo vi /etc/hosts


在文件末尾添加以下内容,下面的IP地址根据实际的IP地址修改

192.168.113.130 node01


3、免密登录设置
(1)生成密钥对

ssh-keygen -t rsa


其中,rsa表示加密算法,输入上面一条命令后连续敲击三次回车键,系统会自动在~/.ssh目录下生成公钥(id_rsa.pub)
和私钥(id_rsa),可通过命令$ls~/.ssh查看

ls ~/.ssh


(2)追加公钥
我们以本机自己为例(连接本机),将公钥追加到~/.ssh/authorized.keys文件中

ssh-copy-id -i ~/.ssh/id_rsa.pud node01


认证文件以生成,可通过ls ~/.ssh查看
(3)免密登录验证

ssh node01 

首次登陆需要输入yes
4、配置Hadoop配置文件
进入Hadoop配置文件所在目录

cd ${HADOOP_HOME}/etc/hadoop


(1)设置hadoop-env.sh

#The java implementation to use.
export JAVA_HOME=~/jdk


(2)设置core-site.xml

<configuration>
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://node01:9000</value>
   </property>
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/wmy/hadoop/tmp</value>
   </property>
</configuration>


设置说明:
fs.defaultFS属性是指定默认文件系统的URI地址,一般格式为“hdfs://host:port”
host可以设置为IP地址或主机名称中的任意一个,这里设置的是主机名,port如果不设置,则使用默认端口8020,这里设置的是9000
hadoop.tmp.dir指定Hadoop的临时工作目录,设置为/home/用户名/hadoop/tmp。注意:一定要设置hadoop.tmp.dir,否则默认的tmp目录在/tmp下,
重启时tmp目录下的dfs/name文件夹会被删除,造成NameNode丢失
(3)设置hdfs-site.xml
用vi命令打开

vi hdfs-site.xml


修改为

<configuration>
         <property>
             <name>dfs.replication</name>
             <value>1</value>
         </property>
</configuration>


// dfs.replication的默认值是3,因为伪分布式只有一个节点,所以值设置为1
(4)设置mapred-site.xml
用vi命令打开

vi mapred-site.xml 


修改为

<configuration>
      <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
      </property>
</configuration>


mapreduce.framework.name默认值为local,设置为yarn,让MaoReduce程序运行在YARN框架上
(5)设置yarn-site.xml
用vi命令

vi yarn-site.xml


修改为

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node01</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

yarn.resourcemanager.hostname属性为资源资源管理器的主机,设置为主机名或者IP地址

yarn.nodemanager.aux-services属性为节点管理器的辅助服务器,默认值是空,设置为mapreduce_shuffle
通过以上设置,我们完成了Hadoop伪分布式模式的配置。其实Hadoop可以配置的属性还有
很多,没有配置的属性就用默认值,默认属性配置存放在core-default.xml、hdfs-default.xml、
mapred-default.xml和 yarn-default.xml文件中。可以到官网查询对应文档或通过命令locate<查找
的文件名>来查找文件所在路径,再通过cat命令查看其内容,例如: 
$locate core-default.Xml 
/home/hadoop/soft/hadoop-2.7.3/share/doc/hadoop/hadoop-project-dist/hadoop-common/ core-default.Xml 

Cat /home/hadoop/soft/hadoop-2.7.3/share/doc/hadoop/hadoop-project-dist/hadoop-common/core de fault.Xml 
6.格式化HDFS 
格式化的过程是创建初始目录和文件系统结构的过程。执行以下命令格式化HDFS。$ hdfs

namenode-format 


注意:格式化只需进行一次,下次启动不要再次格式化,否则会缺失DataNode进程。7.启动Hadoop 
采用下面命令启动HDFS。

start-dfs.sh 


用jps命令验证,正确启动会出现以下3个进程。

Jps

 
NameNode DataNode 
SecondaryNameNode 
采用下面命令启动YARN。

start-yarn.sh


8.验证Hadoop进程
用jps命令验证,正确启动将多出以下两个进程。$ips 
ResourceManager NodeManager 
提示:start-dfs.sh、start-yarn.sh也可以合并成下面一个命令。$start-all.sh 
如果某个主机少了某个进程,应该到相应主机去找对应的log查看原因,log存放在$HADOOPHOME /logs 目录下。例如,若少了DataNode进程,那么就切换到$HADOOP_ HOME /logs目录下,查看DataNode相关的log,找到含有“WARN”“Error""Exception”等的关键字句,通过上网搜索关键字句找到解决问题的办法。
$cd $IHADOOPHOME/logs 
$cat hadoop-hadoop-datanode-nodel.log 也可以通过vi命令查看。
$ vi hadoop-hadoop-datanode-nodel.log 最新出现的错误,其信息都在文件末尾。9.通过Web访问Hadoop 
(1)HDFS Web界面
在Windows浏览器中,输人网址http://192.168.113.130:50070,可以查看NameNode和DataNode 的信息,如图2-28所示。
在Windows浏览器中,输入网址http://192.168.113.130:50090,可以查看SecondaryNameNode


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop分布式模式是在一台机器上模拟分布式环境,使得开发人员可以在单个机器上完成Hadoop程序的开发和测试。下面是Hadoop分布式模式配置过程: 1. 安装Java和Hadoop:首先需要安装Java和Hadoop。Java的版本需要与Hadoop版本匹配。安装完成后,需要设置JAVA_HOME和HADOOP_HOME环境变量。 2. 修改配置文件:Hadoop分布式模式需要修改以下配置文件: - core-site.xml:配置Hadoop的核心参数,如文件系统、端口等。 - hdfs-site.xml:配置Hadoop分布式文件系统的参数,如副本数量、块大小等。 - mapred-site.xml:配置Hadoop的MapReduce参数,如任务最大尝试次数、任务跟踪器等。 - yarn-site.xml:配置Hadoop的YARN参数,如节点管理器、资源管理器等。 3. 创建HDFS目录:在Hadoop分布式模式中,需要手动创建HDFS目录。可以使用以下命令创建目录: ``` hdfs dfs -mkdir /user hdfs dfs -mkdir /user/<用户名> ``` 4. 启动Hadoop:使用以下命令启动Hadoop: ``` start-dfs.sh start-yarn.sh ``` 5. 验证Hadoop:使用以下命令验证Hadoop是否正常运行: ``` jps ``` 如果输出中包含ResourceManager、NodeManager、DataNode、NameNode等进程,则说明Hadoop已经成功启动。 6. 运行Hadoop程序:在Hadoop分布式模式下,可以使用以下命令运行程序: ``` hadoop jar <程序.jar> <输入路径> <输出路径> ``` 以上就是Hadoop分布式模式配置过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值