Hadoop伪分布式环境部署

虚拟机环境准备

注意:复制新的虚拟机是要重新生成mac地址! 博主学习使用CentOS7

  1. 虚拟机网络配置

    1. 网关配置 vi /etc/sysconfig/network-scripts/ifcfg-ens33
    2. wq命令保存后重启下(service network restart)
    3. 测试:查看本机ip命令:ip addr
    4. 测试:上网 命令:ping www.baidu.com

如果没有IP展示使用一下命令

service NetworkManager stop 

chkconfig  NetworkManager  off    永久关闭 Manager网卡

service  network restart   重启network网卡

  1. 修改主机名

vi /ect/sysconfig/network

HOSTNAME= hadoop01

hostnamectl  set-hostname hadoop01

 

将主机与IP映射

vim /etc/hosts

添加IP 主机名,例如

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.43.130 hadoop01

保存重启

 

  1. 关闭防火墙

    1. 查看防火墙状态: systemctl status firewalld
    2. 查看防火墙是否开机自启动: systemctl is-enabled firewalld
    3. 关闭防火墙:

systemctl stop firewalld

systemctl stop firewalld.service

systemctl status firewalld

    1. 禁用防火墙自启动

systemctl disable firewalld

systemctl disable firewalld.service

systemctl is-enabled firewalld

  1. 配置新用户123的root权限

useradd 123

passwd root

重启生效

配置权限:vi /etc/sudoers

修改/etc/sudoers文件,找到下面一行(91行),在root下面添加一行,如下所示:

## Allow root to run any commands anywhere

root    ALL=(ALL)     ALL

123  ALL=(ALL)     ALL

  1. 在/opt目录下创建文件夹

    1. 在/opt目录下创建module、software文件夹

/opt目录用来安装附加软件包,是用户级的程序目录

mkdir module

mkdir software

/usr:系统级的目录,比如C:/Windows/。

/usr/lib:比如C:/Windows/System32。

/usr/local:用户级的程序目录,比如C:/Progrem Files/。

用户自己编译的软件默认会安装到这个目录下

 

安装JDK

使用远程工具将JDK1.8导入software,解压到module

 

配置JDK环境变量

获取jdk路径: pwd

编辑/etc/profile文件

末尾添加

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

export PATH=$PATH:$JAVA_HOME/bin

保存退出

让文件生效: source /etc/ profile

测试是否成功:java -version

 

Hadoop运行环境搭建

 

安装hadoop

将hadoop安装包导入software

解压至module

打开/etc/profile添加环境变量

##HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-2.7.2

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

保存退出

让修改文件生效:source /etc/profile

测试 :hadoop -version

 

 

安装JDK

使用远程工具将JDK1.8导入software,解压到module

配置JDK环境变量

获取jdk路径: pwd

编辑/etc/profile文件

末尾添加

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

export PATH=$PATH:$JAVA_HOME/bin

保存退出

让文件生效: source /etc/ profile

测试是否成功:java -version

 

主机名和IP进行映射

将主机与IP映射

vim /etc/hosts

添加IP 主机名,例如

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.43.130 hadoop01

 

hadoop目录结构

 

(1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本

(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件

(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)

(4)sbin目录:存放启动或停止Hadoop相关服务的脚本

(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

 

hadoop运行模式

 

运行模式

本地模式、伪分布式模式以及完全分布式模式。

 

 

伪分布式集群

  • 配置集群

进入子目录 /opt/module/hadoop-2.7.2/etc/hadoop/

    1. 配置:hadoop-env.sh

修改JAVA_HOME和HADOOP_CONF_DIR

export JAVA_HOME=/opt/module/jdk1.8.0_144

export HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

保存退出,重新生效

source hadoop-env.sh

    1. 配置:core-site.xml

<!-- 指定HDFS中NameNode的地址 -->

<property>

<name>fs.defaultFS</name>

    <value>hdfs://hadoop01:9000</value>

</property>

 

<!-- 指定Hadoop运行时产生文件的存储目录 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/module/hadoop-2.7.2/data/tmp</value>

</property>

      1. 配置:hdfs-site.xml

<!-- 指定HDFS副本的数量 -->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

 

 

配置集群在YARN上运行MR

 

配置 yarn-env.sh

配置一下JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

 

配置 yarn-site.xml

<!-- Reducer获取数据的方式 -->

<property>

  <name>yarn.nodemanager.aux-services</name>

  <value>mapreduce_shuffle</value>

</property>

 

<!-- 指定YARN的ResourceManager的地址 -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

 

 

配置 mapred-env.sh

配置一下JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

 

配置 mapred-site.xml

<!-- 指定MR运行在YARN上 -->

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

 

启动集群

启动ResourceManager sbin/yarn-daemon.sh start resourcemanager

启动NodeManager sbin/yarn-daemon.sh start nodemanager

启动前必须保证NameNode和DataNode已经启动

 

YARN的浏览器页面查看

http://hadoop101:8088/cluster

 

 

配置历史服务器

在mapred-site.xml文件里面增加如下配置。

<!-- 历史服务器端地址 -->

<property>

<name>mapreduce.jobhistory.address</name>

<value>hadoop01:10020</value>

</property>

<!-- 历史服务器web端地址 -->

<property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>hadoop01:19888</value>

</property>

启动历史服务器:sbin/mr-jobhistory-daemon.sh start historyserver

查看历史服务器地址

http://hadoop101:19888/jobhistory

 

 

配置日志的聚集

日志聚集概念:将程序运行日志信息上传到HDFS系统上。

功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志,需要重新启动NodeManager 、ResourceManager和HistoryManager。

在yarn-site.xml文件里面增加如下配置。

<!-- 日志聚集功能使能 -->

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

 

<!-- 日志保留时间设置7天 -->

<property>

<name>yarn.log-aggregation.retain-seconds</name>

<value>604800</value>

</property>

</configuration>

 

 

查看日志

http://hadoop101:19888/jobhistory

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值