007 linux环境下的伪分布式环境搭建

本文的配置环境是VMware10+centos2.5。

在学习大数据过程中,首先是要搭建环境,通过实验,在这里简短粘贴书写关于自己搭建大数据伪分布式环境的经验。

如果感觉有问题,欢迎咨询评论。

零:下载ruanjian

1.下载

  

 

2.下载网址

  https://archive.apache.org/dist/hadoop/common/ 

 

:伪分布式准备工作

1.规划目录

  

2.修改目录所有者和所属组

  

3.删除原有的jdk

  

 

4.上传需要的jdk

    

5.增加jdk 的执行权限

  

 

6.解压jdk

   

7.修改profileJAVA_HOMEPATH

  

8.使文件生效

  不需要使用root用户。

   

9.检验jdk是否成功

  

  

二:搭建为分布式(主要是namenode与datanode)

1.解压hadoop

  

2.进入hadoop主目录

  

3.获取JAVA_HOME的目录

  

 

4.*.env.sh

  

 

5.修改hadoop-env.shJAVA_HOME

  

  

6.修改mapred-env.hJAVA_HOME

  虽然官网没说,但是也需要修改。

  

 

7.修改yarn-env.shJAVA_HOME

  虽然官网没说,但是也需要修改。

  

 

 8.*-site.xml配置

  

 

9.配置core-site.xml

  8020是交互端口,namenode启动以后,可以通过浏览器进行访问hdfs文件系统。

  新建一个临时目录:

    注意点:sudo chown -R beifeng:beifeng data

  

  配置:

  

 

10.修改slave的配置

  

 

11.修改hdfs.site.xml

   

 

12.执行

  

 

13.检验hdfs

  

 

14.格式化hdfs

  对文件操作系统进行格式化。

   

   

 

15.启动namenode 以及datanode进程

  注意:

    sudo chmod -R a+w hadoop-2.5.0/ 增加权限,因为要产生log文件夹。

  

 

16.查看浏览器,方便管理HDFS

  http://linux-hadoop01.ibeifeng.com:50070/

  

 

17.HDFS上新建文件夹

  

   

 

15.HDFS上上传文件

   

   

16.HDFS上读取wenjian

   

 

17.HDFS上下载文件到本地

   

 

18.删除在HDFS上的文件

  bin/hdfs dfs -rm -f core-site.xml

  如果不知道可以使用bin/hdfs dfs ,在确认后就弹出使用方法

 

 

三:继续搭建伪分布式(YARN部分的搭建)

1.官网

  

 

2.配置yarn-site.xml

   

 

2..配置MapReduce的配置,MapReduce.site.xml

  表示mapreduce将要运行在yarn上

  

 

3.启动

  sbin/yarn-daemon.sh start resourcemanager

  sbin/yarn-daemon.sh start nodemanager

  

 

4.浏览器上观察

  端口为8088.

   http://linux-hadoop01.ibeifeng.com:8088

 

5.新建将要测试的文件

   

  

 

6.HDFS上新建文件目录

   

  

 

7.上传本地的wc.input文件进刚刚新建的目录

    

  

 

8.yarn上运行计算

  bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount mapreduce/wordcount/input mapreduce/wordcount/output1

   

   

9.查看结果

  bin/hdfs dfs -text mapreduce/wordcount/output1/pa*   

  

  这个时候因为没有配置历史服务器,所以在途中的history没有用。

  

 

 

四:历史服务器的配置 

1.配置历史服务器,修改mapred-xite.xml

  历史服务器可以查看已经完成的MR程序作业记录。

  默认情况下历史服务器是不启动的。

  所以配置在mapred-site.xml中。

  

 

2.启动服务器

  

 

3.建议历史服务器在yarn启动之后紧接着启动

  sbin/mr-jobhistory-daemon.sh start historyserver

   

 

4.浏览器观察

  web端口是19888.

  再点击一下刚才的history,这里不需要再次运行mapreduce程序。

  

 

五:日志聚集功能

1.问题由来

  这个log的聚集主要说的是yarn里面的日志功能。

  会将MR程序运行的日志上传到HDFS上的目录中,默认会在‘/’下产生一个tmp目录,这个tmp可以在HDFS的50070上看到,同时这个tmp对用户是无效的,没有权限。

  很多mapreduce会对应需要的日志,如果将日志聚集到hdfs上,可以方便的查看。

  19888上的logs:

  

  50070上的tmp

  

 

2.日志聚集功能,修改yarn.site.xml

  

 

3.重新启动resourcemanager,nodemanager,jobhistory

  

 

6.再次在yarn上运行程序

  

 

7.这时就可以点击logs,在yarn的管理页面上观看日志文件

  

 

8.logs点击的结果

  

 

但是问题还是没有完全解决好,有下面的问题。

9.HDFS用户权限的修改,点击tmp时,出现的问题效果

  

 

 

10.修改hdfs.xite.xml,使hdfs不在检查用户权限

  HDFS上会存在用户权限检查。

  

 

11.重新启动HDFS

  这个时候,其实,yarn也需要关闭,只是在验证tmp时可以不启动yarn。

  

 

12.再次点击tmp,即可进入

  

 

六:静态用户名的修改

1.修改静态用户名,之前的状态

  

  

 2.修改core.site.xml

  

 

3.重启HDFS和YARN

  

 

4.重启任务

  

 

 

5.这时静态用户将会变成设置的用户

  

 

 

 

 

 

 

    

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值