Hadoop的伪分布式安装部署

一:下载Hadoop包

下载地址:https://hadoop.apache.org/releases.html

二:简介

2.1.Hadoop是什么

Hadoop是一种分析和处理海量数据的软件平台
Hadoop是一款开源软件,使用JAVA开发
Hadoop可以提供一个分布式基础架构

2.2.Hadoop特点

高可靠性、高扩展性、高效性、高容错性、低成本

2.3.Hadoop常用组件

HDFS:Hadoop分布式文件系统(核心组件)
MapReduce:分布式计算框架(核心组件)
Yarn:集群资源管理系统(核心组件)
Zookeeper:分布式协作服务
Hbase:分布式列存数据库
Hive:基于Hadoop的数据仓库
Sqoop:数据同步工具
Pig:基于Hadoop的数据流系统
Mahout:数据挖掘算法库
Flume:日志收集工具

三:安装模式简介

  • 单机模式:不能使用HDFS,只能使用MapReduce,所以单机模式最主要的目的是在本机调试mapreduce代码

  • 伪分布式模式:用多个线程模拟多台真实机器,即模拟真实的分布式环境。

  • 完全分布式模式:用多台机器(或启动多个虚拟机)来完成部署集群。

四:伪分布式安装部署

4.1 前提准备

4.1.1配置主机名

在network中更改hostname参数(重启后依然有效):
模式:HOSTNAME=<主机名>

vim /etc/sysconfig/network

或者可以暂时有效方法:

sudo hostname <主机名>

在这里插入图片描述

4.1.2配置hosts文件

更改hosts文件:
模式:IP <主机名>

vim /etc/hosts

在这里插入图片描述

4.1.3配置自己节点登录的免密码登录

如果是单机的伪分布式环境,节点需要登录自己节点,即hadoop01要登录hadoop01,但是此时是需要输入密码的,所以要在hadoop01节点上执行:

ssh-keygen -t rsa//生成密钥
ssh-copy-id <用户名>@<主机名>//自己节点免密登录
4.1.4安装好JDK环境
4.1.5下载并上传Hadoop安装包

以2.8.5版本的hadoop、上传路径以/opt路径为例。

4.2正式安装

4.2.1解压安装包
cd /opt/hadoop
tar -zxvf hadoop-2.8.5.tar.gz

目录说明:(最常用的就是bin和etc目录)

  • bin目录:命令脚本
  • etc/hadoop:存放hadoop的配置文件
  • lib目录:hadoop运行的依赖jar包
  • sbin目录:启动和关闭hadoop等命令都在这里
  • libexec目录:存放的也是hadoop命令,但一般不常用
4.2.2配置环境变量

打开环境变量文件:

sudo vim /etc/profile

在文件最后面写上下面配置:

# Hadoop配置文件
export HADOOP_HOME=/opt/hadoop/hadoop-2.8.5
export PATH=${HADOOP_HOME}/bin:$PATH
4.2.3配置文件

进入hadoop配置文件路径

cd /opt/hadoop/hadoop-2.8.5/etc/hadoop/
  • 1.配置hadoop-env.sh
    修改java_home路径和hadoop_conf_dir 路径
    vim hadoop-env.sh
    在这里插入图片描述
    然后执行:source hadoop-env.sh 让配置立即生效
  • 2.配置core-site.xml
    vim core-site.xml
<configuration>

        <!--用来指定hdfs的老大,namenode的地址-->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop01:9000</value>
        </property>
        <!--用来指定hadoop运行时产生文件的存放目录-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop/hadoop-2.8.5/tmp</value>
        </property>
</configuration>

在这里插入图片描述

  • 3.配置hdfs-site .xml
    vim hdfs-site .xml
<configuration>
        <!--指定hdfs保存数据副本的数量,包括自己,默认值是3-->
        <!--如果是伪分布模式,此值是1-->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <!--设置hdfs的操作权限,false表示任何用户都可以在hdfs上操作文件-->
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>

在这里插入图片描述

  • 4.配置mapred-site.xml
    这个文件初始时是没有的,有的是模板文件,mapred-site.xml.template所以需要拷贝一份,并重命名为mapred-site.xml
    执行:cp mapred-site.xml.template mapred-site.xml
    vim mapred-site.xml
<configuration>
        <property>
        <!--指定mapreduce运行在yarn上-->
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

在这里插入图片描述

  • 5.配置yarn-site.xml
    vim yarn-site.xml
<configuration>
        <!-- Site specific YARN configuration properties -->
        <property>
                <!--指定yarn的老大 resoucemanager的地址-->
                <name>yarn.resourcemanager.hostname</name>
                <value>aeb</value>
        </property>
        <property>
                <!--NodeManager获取数据的方式-->
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

在这里插入图片描述

  • 6.配置slaves文件
    vim slaves
hadoop01
4.2.4格式化NameNode
hadoop namenode -format

当出现:successfully,证明格式化成功
在这里插入图片描述

4.2.5Hadoop的启动
  • 切换到sbin目录下, 执行./start-dfs.sh, 启动hadoop相关服务;
  • 执行./start-yarn.sh, 启动yarn相关服务。
4.2.6在WEB页面访问,查看是否正常

NameNode节点通过Web访问
默认URL:http://localhost:50070/
在浏览器查看YARN
默认URL:http://localhost:8088

4.3.上述都正常,则安装成功

至此,Hadoop伪分布式集群安装及配置完成,这个安装只有HDFS、YARN,MapReduce等基本组件。

(后续继续补充,把单机安装、分布式安装完成)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值