1. Hadoop发展简史
2. Hadoop集群搭建
1)集群的分工 HDFS集群 负责海量数据的存储
Yarn集群 负责海量数据运算时的资源调度
MapReducer 负责运算
2)服务器准备
[3)网络环境准备](https://blog.csdn.net/qq_43701760/article/details/87942979)
4)服务器系统设置
5)JDK环境安装
6)Hadoop安装包目录结构
7)Hadoop配置文件修改
1,防火墙 systemctl stop firewalld
2,etc/hadoop
hadoop-env.sh (配置JDK环境)
core-site.sh (指定Hadoop使用的文件系统/namenode地址/指定Hadoop运行时产生的文件存储目录)
hdfs-site.sh (指定副本的的数量)
mapred-site.sh (指定yarn运行时的框架)
yarn-site.sh (指定yarn的地址/处理mapReducer程序的附属服务)
3,vi /etc/profile(配置Hadoop的环境变量)
vi slaves (安装datanode,设置从节点位置,为一键启动提供条件)
8)Hadoop环境变量
3. Hadoop集群的启动
1)启动方式
(单节点启动) Hadoop-dfs.sh start namenode / Hadoop-dfs.sh start datanode
start-dfs.sh
Hadoop-dfs.sh start ResourceManager / Hadoop-dfs.sh start nodeManager
start-yarn.sh
(**一键启动**)start-all.sh
2)集群网页查看
4. 三大框架之HDFS
***1)HDFS简介*** 是Hadoop distribute file system的简称
***2)重要特性*** 1))通过统一的命名空间目录树来定位文件
2))主从架构(master/slave)
3))分块存储
4))元数据(目录结构/文件分块信息)由namenode管理
5))datanode 存储具体的block块,并定时向namenode汇报自己持有的信息
6))副本(备份)机制(默认为3,即一共3个)
7))一次写入,多次读取,不支持修改
***3)基本操作*** shell命令
***4)基本原理*** HDFS写入数据流程
HDFS读取数据流程
***5)HDFS应用开发***
(核心步骤:从HDFS提供的API中构造一个HDFS的访问客户端对象,再通过客户端对象来操作HDFS上的文件)
1))搭建开发环境
创建maven工程,引入pom依赖 (常用的Hadoop-common Hadoop-hdfs Hadoop -client)
配置Windows平台Hadoop环境 (在hdfs-site.sh中)
2))构造客户端对象 主要涉及一下class
configuration :封装了客户端的配置信息
FileSystem:是一个文件系统对象,通过get获取对象
5. 三大框架之MapReducer
分两个阶段:1 继承Mapper 实现字符的切割
2 继承Reducer 实现统计功能
最后将任务提交给job,打印日志信息
6. 三大框架之Yarn
任务调度系统,资源分配
然后就是Hadoop生态中各组件的搭建和基础使用