一、完全分布式
1.1 系统规划
1.1.1 Hadoop 三大核心组件
– 分布式文件系统
– HDFS 已经部署完毕
– 分布式计算框架
– mapreduce
– 集群资源管理
– yarn
1.1.2 系统架构
1.2 安装部署
1.2.1 mapred配置
1. 分布式计算框架 mapred-site.xml
– 改名
~] # mv mapred-site.xml.template mapred-site.xml
2. 分布式计算框架 mapred-site.xml
– 只支持 local 和 yarn 两种
– 单机使用 local
– 集群使用 yarn
3. mapred-site.xml 配置
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
1.2.2 yarn配置
1. 资源管理 yarn-site.xml
– resourcemanager 地址
– yarn.resourcemanager.hostname
– nodemanager 使用哪个计算框架
– yarn.nodemanager.aux-services
– mapreduce_shuffle 是我们使用计算框架的名称
2. yarn-site.xml 配置
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>nn01</value> //指定resourcemanager的主机名
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value> //指定使用的计算机框架名称
</property>
</configuration>
1.2.3 同步配置并启动服务
ALL: 同步配置到主机
NN1: 启动服务 ./sbin/start-yarn.sh //启动服务
ALL: 验证角色 jps
NN1: 验证节点状态 ./bin/yarn node -list //验证服务
1.2.4 web访问hadoop
1. namenode web 地址 【nn01】
http://192.168.1.10:50070
2.sedondary namenode web 地址 【nn01】
地址 http://192.168.1.10:50090
3.yarn resourcemanager 管理地址 【node1,node2,node3】
http://192.168.1.10:8088
4.datanode web 地址 【nn01】
http://192.168.1.11:50075
5.nodemanager web 地址 【node1,node2,node3】
http://192.168.1.11:8042
二、HDFS 基本使用
2.1 HDFS 基本命令
– ./bin/hadoop fs –ls / //列出集群/下的所有文件
– 对应 shell 命令 ls /
– ./bin/hadoop fs –mkdir /abc //创建/abc文件夹
– 对应 shell 命令 mkdir /abc
– ./bin/hadoop fs –rmdir /abc //删除/abc文件夹
– 对应 shell 命令 rmdir /abc
– ./bin/hadoop fs –touchz /urfile //新建/urfile文件
– 对应 shell 命令 touch /urfile
– ./bin/hadoop fs –cat /urfile //查看/urfile文件
– 对应 shell 命令 cat /urfile
– ./bin/hadoop fs –rm /urfile //删除/urfile文件
– 对应 shell 命令 rm /urfile
– 上传文件
– ./bin/hadoop fs –put localfile /remotefile
– 下载文件
– ./bin/hadoop fs –get /remotefile
2.2 hadoop词频统计
2.2.1 需求
统计多个文件出现次数最多的单词
2.2.2 实现思路
1. 在集群文件系统里创建文件夹
2. 上传要分析的文件到目录中
3. 分析上传文件
4. 展示结果
1. 创建文件夹
hadoop ] # ./bin/hadoop fs -mkdir /input
2. 上传要分析的文件
adoop ] # ./bin/hadoop fs -put *.txt /input
3. 提交分析作业
adoop ] # ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output
4. 查看结果
adoop ] # ./bin/hadoop fs –cat output/*
三、节点管理
3.1 hdfs节点管理
3.1.1 增加节点
1、启动一个新的系统,禁用 selinux、禁用 firewalld
~]# sestatus
~]# rpm -qa | grep firewalld
2、设置 ssh 免密码登录