Hadoop的伪分布式安装部署

最新推荐文章于 2022-01-04 21:07:22 发布

久伴兔兔宝宝

最新推荐文章于 2022-01-04 21:07:22 发布

阅读量466

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/qq_35708390/article/details/104734724

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一：下载Hadoop包

下载地址：https://hadoop.apache.org/releases.html

二：简介

2.1.Hadoop是什么

Hadoop是一种分析和处理海量数据的软件平台
Hadoop是一款开源软件,使用JAVA开发
Hadoop可以提供一个分布式基础架构

2.2.Hadoop特点

高可靠性、高扩展性、高效性、高容错性、低成本

2.3.Hadoop常用组件

HDFS:Hadoop分布式文件系统(核心组件)
MapReduce:分布式计算框架(核心组件)
Yarn:集群资源管理系统(核心组件)
Zookeeper:分布式协作服务
Hbase:分布式列存数据库
Hive:基于Hadoop的数据仓库
Sqoop:数据同步工具
Pig:基于Hadoop的数据流系统
Mahout:数据挖掘算法库
Flume:日志收集工具

三：安装模式简介

单机模式：不能使用HDFS，只能使用MapReduce,所以单机模式最主要的目的是在本机调试mapreduce代码
伪分布式模式：用多个线程模拟多台真实机器，即模拟真实的分布式环境。
完全分布式模式：用多台机器（或启动多个虚拟机）来完成部署集群。

四：伪分布式安装部署

4.1 前提准备

4.1.1配置主机名

在network中更改hostname参数（重启后依然有效）：
模式：HOSTNAME=<主机名>

vim /etc/sysconfig/network

或者可以暂时有效方法：

sudo hostname <主机名>

在这里插入图片描述

4.1.2配置hosts文件

更改hosts文件：
模式：IP <主机名>

vim /etc/hosts

在这里插入图片描述

4.1.3配置自己节点登录的免密码登录

如果是单机的伪分布式环境，节点需要登录自己节点，即hadoop01要登录hadoop01，但是此时是需要输入密码的，所以要在hadoop01节点上执行：

ssh-keygen -t rsa//生成密钥
ssh-copy-id <用户名>@<主机名>//自己节点免密登录

4.1.4安装好JDK环境

4.1.5下载并上传Hadoop安装包

以2.8.5版本的hadoop、上传路径以/opt路径为例。

4.2正式安装

4.2.1解压安装包

cd /opt/hadoop
tar -zxvf hadoop-2.8.5.tar.gz

目录说明：（最常用的就是bin和etc目录）

bin目录：命令脚本
etc/hadoop:存放hadoop的配置文件
lib目录：hadoop运行的依赖jar包
sbin目录：启动和关闭hadoop等命令都在这里
libexec目录：存放的也是hadoop命令，但一般不常用

4.2.2配置环境变量

打开环境变量文件：

sudo vim /etc/profile

在文件最后面写上下面配置：

# Hadoop配置文件
export HADOOP_HOME=/opt/hadoop/hadoop-2.8.5
export PATH=${HADOOP_HOME}/bin:$PATH

4.2.3配置文件

进入hadoop配置文件路径

cd /opt/hadoop/hadoop-2.8.5/etc/hadoop/

1.配置hadoop-env.sh
修改java_home路径和hadoop_conf_dir 路径
vim hadoop-env.sh

然后执行：source hadoop-env.sh 让配置立即生效
2.配置core-site.xml
vim core-site.xml

<configuration>

        <!--用来指定hdfs的老大，namenode的地址-->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop01:9000</value>
        </property>
        <!--用来指定hadoop运行时产生文件的存放目录-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop/hadoop-2.8.5/tmp</value>
        </property>
</configuration>

在这里插入图片描述

3.配置hdfs-site .xml
vim hdfs-site .xml

<configuration>
        <!--指定hdfs保存数据副本的数量，包括自己，默认值是3-->
        <!--如果是伪分布模式，此值是1-->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <!--设置hdfs的操作权限，false表示任何用户都可以在hdfs上操作文件-->
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>

在这里插入图片描述

4.配置mapred-site.xml
这个文件初始时是没有的，有的是模板文件，mapred-site.xml.template所以需要拷贝一份，并重命名为mapred-site.xml
执行：cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<configuration>
        <property>
        <!--指定mapreduce运行在yarn上-->
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

在这里插入图片描述

5.配置yarn-site.xml
vim yarn-site.xml

<configuration>
        <!-- Site specific YARN configuration properties -->
        <property>
                <!--指定yarn的老大 resoucemanager的地址-->
                <name>yarn.resourcemanager.hostname</name>
                <value>aeb</value>
        </property>
        <property>
                <!--NodeManager获取数据的方式-->
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

在这里插入图片描述

6.配置slaves文件
vim slaves

hadoop01

4.2.4格式化NameNode

hadoop namenode -format

当出现：successfully，证明格式化成功
在这里插入图片描述

4.2.5Hadoop的启动

切换到sbin目录下, 执行./start-dfs.sh, 启动hadoop相关服务;
执行./start-yarn.sh, 启动yarn相关服务。

4.2.6在WEB页面访问，查看是否正常

NameNode节点通过Web访问
默认URL：http://localhost:50070/
在浏览器查看YARN
默认URL：http://localhost:8088

4.3.上述都正常，则安装成功

至此，Hadoop伪分布式集群安装及配置完成，这个安装只有HDFS、YARN，MapReduce等基本组件。

（后续继续补充，把单机安装、分布式安装完成）

久伴兔兔宝宝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的伪分布式安装部署

一：下载Hadoop包下载地址：https://hadoop.apache.org/releases.html二：简介2.1.Hadoop是什么Hadoop是一种分析和处理海量数据的软件平台Hadoop是一款开源软件,使用JAVA开发Hadoop可以提供一个分布式基础架构2.2.Hadoop特点高可靠性、高扩展性、高效性、高容错性、低成本2.3.Hadoop常用组件HDFS:H...
复制链接

扫一扫

专栏目录