大数据学习教程SD版第二篇【Hadoop 简介和搭建】

该教程详细介绍了Hadoop的三大发行版本、优势、组成,包括HDFS、YARN和MapReduce。接着,讲解了模板机的搭建,包括硬件和软件配置、远程访问工具、环境配置和克隆。最后,重点阐述了Hadoop集群的部署过程,涵盖安装、文件拷贝、SSH免密登录、配置、启动测试、崩溃处理、历史服务器配置、日志聚集功能及常用脚本等。
摘要由CSDN通过智能技术生成

前情提醒:linux基本命令和简单的shell脚本,已Get!

2.hadoop 3.x/2.x

Hadoop 分布式系统基础架构,主要解决数据的存储和计算,现Hadoop广义上 指的是Hadoop生态圈

Hadoop 简介

2.1 三大发行版本

  1. Apache 2006
  2. Cloudera CDH 2008
  3. Hortonworks HDP 2011

Hortonworks 和Cloudera 联合,2018推出 CDP

2.2 优势

  1. 高可靠性:底层维护多个副本
  2. 高扩展性:动态扩展节点,动态删除节点
  3. 高效性:并行计算
  4. 高容错性:失败任务自动重新分配

2.3 组成

  1. Common : 辅助工具
  2. HDFS: 数据存储
  3. YARN: 资源调度
  4. MapReduce: 计算

2.4 HDFS 文件系统

  1. NameNode[NN] 名称节点

  2. DataNode[DN] 数据节点

  3. Secondary NameNode[2NN] 第二名称节点

2.5 YARN 资源管理工具

  1. ResourceManager[RM] 集群资源管理器

  2. NodeManager[NM] 节点资源管理器

  3. ApplicationMaster[AM] 应用程序

  4. Container 运行程序的资源容器

2.6 MapReduce 计算框架

  1. Map 映射,一系列转换操作

  2. Reduce 汇总

Hadoop 模板机搭建

2.7 模板机搭建

  1. 硬件
  2. 软件
  3. IP配置
  • VMware 网络配置
  • Windows网络配置
  • Linux主机网络配置[/etc/sysconfig/network-scripts/ifcfg-xxx]
BOOTPROTO='static'

IPADDR=xxx.xxx.xx.xxx
GATEWAY=xxx.xxx.xx.x
DNS1=xxx.xxx.xx.x
  1. 主机名配置[/etc/hostname]
  2. 主机名称映射配置[/etc/hosts]
ip hostname
  1. 重启,使配置生效

2.8 远程访问工具

  1. Xshell+Xftp
  2. Mobaxterm

2.9 模板机环境配置

  1. rpel-release: readhat系列的软件仓库
yum install -y epel-relaease
  1. net-tools: 网络工具包[ifconfig]
yum install -y net-tools
  1. vim:文本编辑器
yum install -y vim
  1. 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld.service
  1. 添加用户并服务对应权限
useradd xxx
passwd xxx

vim /etc/sudoers

# 在 %wheel 行下添加
xxx ALL=(ALL) NOPASSWD:ALL
  1. 卸载自带的JDK
rpm -qa |grep -i java | xargs -n1 rpm -e --nodeps
  1. 重启

2.10 模板机克隆

只需修改对应主机的名称和IP即可

Hadoop 集群部署

2.11 Hadoop 安装

  1. 安装jdk
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export JAVA_HOME=/xxx/xxx
export PATH=$PATH:$JAVA_HOME/bin

# 检查Ok
java -version
  1. 安装hadoop
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里同样不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export HADOOP_HOME=/xxx/xxx
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 4.检查OK
hadoop version

2.12 Hadoop 集群文件拷贝

可以在配置SSH免密登录之后在拷贝,这样就不用输入各主机的密码

  1. 集群文件拷贝
# 方式一 :文件推送
scp -r /xxx/xxx  user@hostname:/xxx/xxx
# 方式二 :文件拉取
scp -r user@hostname:/xxx/xxx  /xxx/xxx
# 方式三 :文件传输
scp -r user@hostname:/xxx/xxx  user@hostname:/xxx/xxx
  1. 集群配置同步
# 同 scp 使用方式类似,只同步差异性文件
rsync -av /xxx/xxx  user@hostname:/xxx/xxx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

道-闇影

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值