Hadoop配置与使用

1 篇文章 0 订阅
1 篇文章 0 订阅

一,介绍

      

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

它主要解决以下三个问题

      1.海量的数据存储(HDFS)

      2.海量的数据分析(MapReduce)

      3.资源管理调度(YARN)

  1.Hadoop的配置

         因为hadoop是基于java编写的,因此需要配置java的环境变量,我在这里使用的是xshell和xftp来访问linux系统。我使用的linux是centos6.5

        (1).拷贝tomcat到linux上(可以使用xftp)

           

 (2).配置环境变量

    使用xshell连接linux系统,使用vim usr/profile 命令打开该文件,在最后一行添加java环境变量,如下

  

  配置完成后,退出vim编辑模式,使用source /etc/profile命令来重新启动配置文件,然后输入java -version命令,如果出现如下配置就算java配置好了

   


 (3)配置hadoop,hadoop现在最新版本应该是3.0,这里使用的是2.4版本来演示,注意如果你是64位系统,需要重新编译hadoop的代码,因为官网好像只有32位的版本

         

 注意拷贝可能是压缩包,因此需要使用解压命令:tar -zxvf  压缩文件 -C 解压到的目录


(4)配置hadoop的环境变量,如下图

       

         和添加java环境变量一样,在etc/profile文件下添加,并且,source etc/profile,用来重新启用配置文件

       2.搭建伪分布式所需的5个配置文件

              至此,hadoop算是安装好了,如果想要使用,还需要做一些配置,下面看看还要做那些配置

               2-1.hadoop-env.sh

                           进入haoop安装目录的etc/hadoop目录下。使用vim打开hadoop-env.sh,修改hadoop-env.sh

                           27行的java环 境变量的配置,如下图

                       

            

                  2-2 core-site.xml

                             同样,进入haoop安装目录的etc/hadoop目录下。使用vim打开core-site.xml,修改core-site.xml

                             你会发现一个configuration的标签,在这里配置,如下图

                                     

                                    第一个property标签表示:

                                     指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址

                                     mylinux代表本机ip,9000是端口

                                   第二个property标签表示:

                                       指定hadoop运行时产生文件的存储目录


                  2-3.hdfs-site.xml

                               如上,在configuration配置文件配置,如下图

                              

     这里的property标签标识:

             hdfs的副本数,因为是伪分布式,所以配置为1



             2-4.mapred-site.xml

                     如上,在configuration标签中配置

                   

             这里配置的是:指定mr运行在yarn上


      2-5 yarn-site.xml

                 如上,在configruation中配置

                  

           

               第一个配置文件:

                        指定YARN的老大(ResourceManager)的地址

             第二个配置文件:

                        reducer获取数据的方式

     3.启动hadoop

            格式化文件系统

               hdfs namenode -format (hadoop namenode -format)

            启动hadoop
               先启动HDFS
              sbin/start-dfs.sh
        
              再启动YARN

              sbin/start-yarn.sh


             验证是否启动成功

               验证是否启动成功
                使用jps命令验证
                       27408 NameNode
                       28218 Jps
                       27643 SecondaryNameNode
                       28066 NodeManager
                       27803 ResourceManager

                       27512 DataNode

                      当这些进程都启动成功后,表示hadoop启动成功

   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值