hadoop分布式集群 、 分布式集群节点管理 、 hdfs扩展应用

本文详细介绍了如何搭建和管理Hadoop完全分布式集群,包括系统规划、安装部署、HDFS基本使用和节点管理。重点讲解了mapred和yarn的配置,以及HDFS的节点增加、修复和删除。此外,还提到了NFS网关的配置和客户端验证,以方便对HDFS的访问。
摘要由CSDN通过智能技术生成

一、完全分布式

1.1 系统规划

1.1.1 Hadoop 三大核心组件

– 分布式文件系统
– HDFS 已经部署完毕

– 分布式计算框架
– mapreduce

– 集群资源管理
– yarn

1.1.2 系统架构

1.2 安装部署

1.2.1 mapred配置

1. 分布式计算框架 mapred-site.xml
– 改名
~] # mv mapred-site.xml.template   mapred-site.xml

2. 分布式计算框架 mapred-site.xml
– 只支持 local 和 yarn 两种
– 单机使用 local
– 集群使用 yarn

3. mapred-site.xml 配置
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

1.2.2 yarn配置

1. 资源管理 yarn-site.xml
– resourcemanager 地址
– yarn.resourcemanager.hostname

– nodemanager 使用哪个计算框架
– yarn.nodemanager.aux-services
– mapreduce_shuffle 是我们使用计算框架的名称

2. yarn-site.xml 配置

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>nn01</value>                                          //指定resourcemanager的主机名
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>                     //指定使用的计算机框架名称
    </property>
</configuration>

1.2.3 同步配置并启动服务

ALL: 同步配置到主机
NN1: 启动服务 ./sbin/start-yarn.sh     //启动服务
ALL: 验证角色 jps
NN1: 验证节点状态 ./bin/yarn node -list     //验证服务

1.2.4 web访问hadoop

1. namenode web 地址                      【nn01】

http://192.168.1.10:50070
2.sedondary namenode web 地址     【nn01】

地址 http://192.168.1.10:50090
3.yarn resourcemanager 管理地址   【node1,node2,node3】

http://192.168.1.10:8088
4.datanode web 地址          【nn01】

http://192.168.1.11:50075
5.nodemanager web 地址   【node1,node2,node3】

http://192.168.1.11:8042

二、HDFS 基本使用

2.1 HDFS 基本命令

– ./bin/hadoop fs –ls /              //列出集群/下的所有文件
– 对应 shell 命令 ls /

– ./bin/hadoop fs –mkdir /abc   //创建/abc文件夹
– 对应 shell 命令 mkdir /abc

– ./bin/hadoop fs –rmdir /abc    //删除/abc文件夹
– 对应 shell 命令 rmdir /abc

– ./bin/hadoop fs –touchz /urfile   //新建/urfile文件
– 对应 shell 命令 touch /urfile

– ./bin/hadoop fs –cat /urfile         //查看/urfile文件 
– 对应 shell 命令 cat /urfile

– ./bin/hadoop fs –rm /urfile           //删除/urfile文件
– 对应 shell 命令 rm /urfile

– 上传文件
– ./bin/hadoop fs –put localfile /remotefile
– 下载文件
– ./bin/hadoop fs –get /remotefile

2.2 hadoop词频统计

2.2.1 需求

统计多个文件出现次数最多的单词

2.2.2 实现思路

1. 在集群文件系统里创建文件夹
2. 上传要分析的文件到目录中
3.  分析上传文件
4.  展示结果

1.  创建文件夹
hadoop ] #  ./bin/hadoop fs -mkdir /input
2. 上传要分析的文件
adoop ] #  ./bin/hadoop fs -put *.txt /input

3. 提交分析作业
adoop ] #  ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input  /output

4. 查看结果
adoop ] #   ./bin/hadoop fs –cat output/*

三、节点管理

3.1 hdfs节点管理

3.1.1 增加节点

1、启动一个新的系统,禁用 selinux、禁用 firewalld

~]# sestatus

 ~]# rpm -qa | grep firewalld
2、设置 ssh 免密码登录

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值