大数据开发基础(上)学习笔记

1、HDFS简介

Hadoop1.0与Hadoop2.0结构图
这里写图片描述
Hadoop 2.0的主要改进有:

1、通过YARN实现资源的调度与管理,从而使Hadoop 2.0可以运行更多种类的计算框架,如Spark等。

2、实现了NameNode的HA方案,即同时有2个NameNode(一个Active另一个Standby),如果ActiveNameNode挂掉的话,另一个NameNode会转入Active状态提供服务,保证了整个集群的高可用。

3、实现了HDFS federation,由于元数据放在NameNode的内存当中,内存限制了整个集群的规模,通过HDFS federation使多个NameNode组成一个联邦共同管理DataNode,这样就可以扩大集群规模。

4、Hadoop RPC序列化扩展性好,通过将数据类型模块从RPC中独立出来,成为一个独立的可插拔模块。

HDFS是一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合需要处理海量数据集的应用程序。

主要特点:
1、支持超大文件:支持TB级的数据文件。

2、检测和快速应对硬件故障:HDFS的检测和冗余机制很好克服了大量通用硬件平台上的硬件故障问题。

3、高吞吐量:批量处理数据。

4、简化一致性模型:一次写入多次读取的文件处理模型有利于提高吞吐量。

HDFS不适合的场景:低延迟数据访问;大量的小文件;多用户写入文件、修改文件。
HDFS读写流程
这里写图片描述

2、YARN原理介绍

产生背景:
Hadoop 1.0的弊端包括:
1、扩展性差
2、可靠性差
3、资源利用率低
4、无法支持多种计算框架
YARN基本架构
这里写图片描述
YARN工作流程

这里写图片描述

3、MapReduce原理介绍

MapReduce是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,是Hadoop面向大数据并行处理的计算模型、框架和平台。
MapReduce执行流包括input、map、shuffle、reduce和output共5个过程
这里写图片描述
YARN框架下的Mapreduce工作流程:
这里写图片描述
shuffle及排序:
这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值