Hadoop基础入门详解

Hadoop基础入门详解

一、Hadoop的组成:

  • MapReduce(计算)——Hadoop1.x的时候也负责资源调度
  • Yarn(资源调度)——Hadoop1.x的时候没有,是hadoop的资源管理器,主要管理CPU和内存
  • HDFS(数据存储)
  • Common(辅助工具)

1、HDFS架构概述

  • NameNode(nn):记录存储数据的位置—>存储文件的元数据,如文件名文件目录结构文件属性(生成时间,副本数,文件权限),以及每个文件的块列表块所在的DataNode等。
  • DataNode(dn):具体存储数据,每一台服务器都是一个DataNode---->在本地系统存储文件块数据,以及块数据和校验和
  • Secondary NameNode(2NN):辅助NameNode工作---->每隔一段时间对NameNode元数据进行备份

2、YARN架构概述

  • ResourceManager(RM):管理整个集群的资源(内存、cpu等),例如有三个NodeManager都是4G内存2个CPU,则RM供共管理12G内存和6个CPU
  • NodeManager(NM):管理单个节点服务器资源,被ResourceManager管理
  • ApplicationMaster(AM):管理单个任务运行
  • Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘和网络等

3、MapReduce架构概述

​ MapReduce将计算过程分为两个阶段:Map和Reduce阶段

​ 1) Map阶段并行处理输入数据---->分发,Map阶段特点:每一个MapTask独立工作

​ 2) Reduce阶段对Map结果进行汇总---->汇总

在这里插入图片描述

4、HDFS、YARN、MapReduce三者之间的关系

**客户端发送任务查找2020年AVI格式视频,ResourceManager(RM)找一个节点(NodeManager(NM)),开启一个Container,把任务(ApplicationMaster(AM))放在Container中,AM向RM申请需要多少资源,RM接收到请求查找相应资源,若能找到相应资源,就给AM开启对应的资源,而AM负责在资源中开启MapTask,此为MapReduce的Map阶段。Map阶段特点:每一个MapTask独立工作。MapTask独立工作,分别在对应节点(NM)中查找2020年AVI格式视频,不管找没找到,都会返回一个结果(Container),再由ReduceTask写到磁盘(DataNode)上,此阶段为Reduce阶段。写入磁盘时,DataNode负责写入操作,同时在NameNode上又进行了一个记账操作,2NN也负责记录一份数据,给NameNode做备份。 **

在这里插入图片描述

5、大数据技术生态体系

在这里插入图片描述

图中涉及的技术名词解释如下:
**1)Sqoop:**Sqoop 是一款开源的工具,主要用于在Hadoop、Hive 与传统的数据库(MySQL)
间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进
到Hadoop 的HDFS 中,也可以将HDFS 的数据导进到关系型数据库中。
**2)Flume:**Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,
Flume 支持在日志系统中定制各类数据发送方,用于收集数据;
**3)Kafka:**Kafka 是一种高吞吐量的分布式发布订阅消息系统;
**4)Spark:**Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop 上存储的大数
据进行计算。
**5)Flink:**Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
**6)Oozie:**Oozie 是一个管理Hadoop 作业(job)的工作流程调度管理系统。
**7)Hbase:**HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,
它是一个适合于非结构化数据存储的数据库。
**8)Hive:**Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张
数据库表,并提供简单的SQL 查询功能,可以将SQL 语句转换为MapReduce 任务进行运
行。其优点是学习成本低,可以通过类SQL 语句快速实现简单的MapReduce 统计,不必开
发专门的MapReduce 应用,十分适合数据仓库的统计分析。
**9)ZooKeeper:**它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、
名字服务、分布式同步、组服务等。

6、推荐系统框架图

在这里插入图片描述

Nginx记录下购买商品过程,打入日志收集服务器中,由Flume采集对应的日志,采集完后传给kafka进行缓冲,缓冲后进行Spark Straming或Flink实时计算,计算完成后返回javaEE后台,返回时可以以两种形式存在:数据库形式或者文件形式存储。存储完成后,javaEE执行业务读取储存的数据,反馈给客户端展示页面。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值