Apache Hadoop-2.7.3伪分布式搭建详细步骤

1.什么是Apache Hadoop?

Apache Hadoop项目为可靠,可扩展的分布式计算开发开源软件。

2.Apache Hadoop项目包含哪些模块?

  • Hadoop Common:支持其他hadoop模块的常用工具
  • HDFS(Hadoop Distributed File System):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问
  • Hadoop YARN:作业调度和集群资源管理的框架
  • Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统

3.Apache的其他Hadoop相关项目包括哪些?

   1.Avro:数据序列化系统

   2.HBase可扩展的分布式数据库,支持大型表格的结构化数据存储

   3.Hive:提供数据汇总和即查询的数据仓库基础架构

   4.Spark:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算

   5.ZooKeeper:分布式应用程序的高性能协调服务

4.Hadoop伪分布式集群搭建过程

本机条件:虚拟机VMware/CentOS6.5/jdk-8u162-linux-x64/hadoop-2.7.3

说明:因为Hadoop是Apache旗下的开源项目,并且底层是java,所以需要安装jdk

注:搭建hadoop集群是要给普通用户使用,使用所以我们应该创建普通用户,不应为了图方便使用root用户

  1. 通过外部挂载或者使用SSH工具,上传hadoop、jdk软件至~/soft(普通用户工作路径下的soft,需要手动创建)
   $>cp  jdk-8u162-linux-x64.tar.gz  ~/soft

   $>cp hadoop-2.7.3.tar.gz  ~/soft

    2.加压相关软件

   $>tar  -zxvf  jdk-8u162-linux-x64.tar.gz

   $>tar  -zvxf  hadoop-2.7.3.tar.gz

    3.创建软链接(为了配置环境变量的时候方便)

   $>ln -s jdk1.8.0_162/ jdk
   $>ln -s hadoop-2.7.3/ hadoop

    4.修改环境变量(只修改当前用户的环境变量)

   $>cd ~
   $>vi .bash_profile 

        注:桌面版本也可以使用gedit

       在文件最后追加以下指令:     

     #jdk install
     export JAVA_HOME=/home/hyxy/soft/jdk
     export PATH=$JAVA_HOME/bin:$PATH
     #hadoop install
     export HADOOP_HOME=/home/hyxy/soft/hadoop
     export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

       刷新指令:

    $>source .bash_profile

     注:刷新完之后,只有当前会话可用,建议reboot(重启)

    5.配置SSH

        a.修改主机名(hostname),如果你的主机名称为master可以不用修改

    $>su
    $>vi /etc/sysconfig/network

         修改内容:【HOSTNAME=master】

        b.修改hosts文件    

    $>su
    $>vi /etc/hosts

        追加内容:【ip 主机名键值对】

        c.reboot(重启)

        d.生成密钥

    $>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

        【说明:-t:设置生成密钥的算法,采用rsa算法 -P:设置密码,默认为空 -f:设置密钥生成的文件位置,~/.ssh

        e.生成认证库

    $>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

        f.修改认证库(authorized_keys)的权限为600

    $>chmod 600 ~/.ssh/authorized_keys

        g.ssh master

        无密登录成功了!!!第一次登录需要输入密码这是正常情况

   6.配置hadoop

        a.找到hadoop的配置路径:

    cd $HADOOP_HOME/etc/hadoop

        b.修改core-site.xml配置文件,在configuration标签中添加:

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

         c.修改hdfs-site.xml配置文件,在configuration标签中添加:

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

         d.修改hadoop-env.sh中的JAVA_HOME变量:

    export JAVA_HOME=/home/hyxy/soft/jdk

         e.格式化HDFS

    $>hdfs namenode -format

         f.开启hadoop守护进程

    $>start-dfs.sh

         g.在linux系统上的浏览器上输入:http://master:50070,出现:

        

    并且查看Live Node :为1,表示成功了!!!

5.怎么在虚拟机外部浏览器,访问:http://ip(虚拟机的实际ip):50070        

    1.关闭防火墙

   $>su

   $>chkconfig iptables off

   $>chkconfig ip6tables off

    2.关闭selinux

   $>su

   $>vi /etc/sysconfig/selinux

       修改内容:【SELINUX=disabled】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值