目录
一、Hadoop简介
1、 Hadoop框架与模块
二、Hadoop工作模式
1、Hadoop部署(单机部署)
2、伪分布式
3、完全分布式
4、扩容DN节点
三、资源管理器YARN
一、Hadoop简介
1、Hadoop框架与模块
Hadoop名字不是一个缩写,是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。
Hadoop起源于Google的三大论文:
GFS:Google的分布式文件系统Google File System
MapReduce:Google的MapReduce开源分布式并行计算框架
BigTable:一个大型的分布式数据库
演变关系:
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
Google MapReduce—->Hadoop MapReduce
hadoop主流版本:
Apache基金会hadoop
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)
Hortonworks版本(Hortonworks Data Platform,简称“HDP”)
Hadoop框架包括以下四个模块:
Hadoop Common: 这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
Hadoop YARN: 这是一个用于作业调度和集群资源管理的框架。
Hadoop Distributed File System (HDFS): 分布式文件系统,提供对应用程序数据的高吞吐量访问。
Hadoop MapReduce:这是基于YARN的用于并行处理大数据集的系统。
其中最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
hadoop应用场景:
在线旅游、移动数据、电子商务、能源开采与节能、基础架构管理、图像处理、诈骗检测、IT安全、医疗保健等等
二、Hadoop工作模式
Apache Hadoophttp://hadoop.apache.org/
1、hadoop部署
真实主机创建1台新的虚拟机 server13(namenode) 内存为2G
真实主机下载hadoop官方套件,需要jdk环境,发送给server13
创建hadoop用户,并为hadoop设置用户密码 ,切换到这一普通用户运行,不建议使用超级用户身份
useradd hadoop
由于是在创建好的hadoop下进行操作 需要修改文件权限 修改文件用户和所属组为hadoop
使用源码安装(不用rpm包安装) 并创建软连接
进入/home/hadoop/hadoop/etc/hadoop
目录下,编辑hadoop-env.sh脚本文件
配置环境变量
复制/etc/hadoop/*.xml至创建的input目录中
配置在非分布式模式下作为jar运行,查找并显示匹配正则表达式的内容。 将输出写入到 output目录,output目录会自动创建
查看output目录被创建 查看其里边的内容
2、伪分布式
伪分布式就是假分布式,假就假在只有一台机器而不是多台机器来完成一个任务,但是模拟了分布式的这个过程,所以伪分布式下Hadoop也就是虽然在一个机器上配置了hadoop的所有节点,但伪分布式完成了所有分布式所必须的事件。伪分布式Hadoop和单机版最大区别就在于需要配置HDFS。
编辑core-site.xml文件,指定hdfs的NN的ip,由于是伪分布式,所以主从都在一起,填写本机9000端口
编辑hdfs-site.xml文件,以伪分布式模式在单节点上运行,每个 Hadoop 守护进程作为单独的 Java 进程运行。副本数设置为1
查看workers,是自己