关于hadoop模块的总复习

大数据是什么?
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据是做什么的?
主要解决,海量数据的存储和海量数据的分析计算问题。

大数据的应用场景?
人工智能、物流仓储、零售、旅游等等
大数据的特点?
大量、多样、快速、有价值
Hadoop是什么?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop能做什么?
主要解决,海量数据的存储和海量数据的分析计算问题
Hadoop的优点?
高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

高容错性:能够自动将失败的任务重新分配。

HDFS是什么?
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS的适用场景?
适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。
HDFS的优缺点?
HDFS的优点:
1)数据冗余、硬件容错
文件以block的方式,多副本存储在集群的节点上,保证硬件的容错,当某一机器损坏时,不至于数据丢失
2)处理流式的数据访问
流式:一次写入,多次读取的操作
3)适合存储大文件
4)可构建在廉价的机器上

缺点:
1)低延迟的数据访问
数据大,想在秒级别做数据的检索不现实
2)小文件索引
不管数据在1M还是127M,都应该对应元数据存放在NameNode上,如果小文件很多,也就意味着所占用的内存信息也越大,那么对于hdfs的NameNode的压力也就越大
HDFS的读写流程?
写:
1、客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在

2、namenode返回是否可以上传

3、客户端请求第一个block上传到哪几个DataNode服务器上

namenode返回3个DataNode节点,分别为dn1,dn2,dn3

4、客户端请求dn1上传数据,dn1收到请求之后会继续调用dn2,dn2调用dn3,将这个通信管道建立完成

5、dn1,dn2,dn3逐级应答客户端,客户端开始往dn1上传第一个block,(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,dn1收到一个packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答

当一个block传输完成之后,客户端再次请求namenode上传第二个block的服务器。

读:
1、客户端向namenode请求读取一个文件,namenode通过查询元数据,找到哦啊文件块所在的DataNode地址

2、挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据

3、DataNode开始传输数据给客户端从磁盘里面读取数据放入流,以packet为单位来做校验)。

4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件。
HDFS的三大核心组件?
NameNode. 集群的核心, 是整个文件系统的管理节点. 维护着
a) 文件系统的文件目录结构和元数据信息
b) 文件与数据块列表的对应关系
DataNode. 存放具体数据块的节点, 主要负责数据的读写, 定期向NameNode发送心跳
SecondaryNameNode. 辅助节点, 同步NameNode中的元数据信息, 辅助NameNode对fsimage和editsLog进行合并.
YARN是什么?
Yarn(yet another resource negotiator)是hadoop的集群资源管理系统,是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。
mapreduce是什么?
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。
mapreduce的核心功能?
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
mapreduce的优缺点?
优点:
1、高可靠,任务失败会自动找其他机器再次执行。
2、可扩展,
3、可搭建在廉价机器中。
缺点
1、不适合流式计算。
2、不适合有向图方式计算。
3、延时比较高,有大量IO性能低。

mapreduce的流程?
天龙八部

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值