大数据开发基础（上）学习笔记

最新推荐文章于 2024-05-13 22:16:16 发布

李升阳

最新推荐文章于 2024-05-13 22:16:16 发布

阅读量700

点赞数

分类专栏：学习记录文章标签：大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GeniusSunriseLee/article/details/52082696

版权

学习记录专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1、HDFS简介

Hadoop1.0与Hadoop2.0结构图
这里写图片描述
Hadoop 2.0的主要改进有：

1、通过YARN实现资源的调度与管理，从而使Hadoop 2.0可以运行更多种类的计算框架，如Spark等。

2、实现了NameNode的HA方案，即同时有2个NameNode（一个Active另一个Standby），如果ActiveNameNode挂掉的话，另一个NameNode会转入Active状态提供服务，保证了整个集群的高可用。

3、实现了HDFS federation，由于元数据放在NameNode的内存当中，内存限制了整个集群的规模，通过HDFS federation使多个NameNode组成一个联邦共同管理DataNode，这样就可以扩大集群规模。

4、Hadoop RPC序列化扩展性好，通过将数据类型模块从RPC中独立出来，成为一个独立的可插拔模块。

HDFS是一个分布式文件系统，具有高容错的特点。它可以部署在廉价的通用硬件上，提供高吞吐率的数据访问，适合需要处理海量数据集的应用程序。

主要特点：
1、支持超大文件：支持TB级的数据文件。

2、检测和快速应对硬件故障：HDFS的检测和冗余机制很好克服了大量通用硬件平台上的硬件故障问题。

3、高吞吐量：批量处理数据。

4、简化一致性模型：一次写入多次读取的文件处理模型有利于提高吞吐量。

HDFS不适合的场景：低延迟数据访问；大量的小文件；多用户写入文件、修改文件。
HDFS读写流程
这里写图片描述

2、YARN原理介绍

产生背景：
Hadoop 1.0的弊端包括：
1、扩展性差
2、可靠性差
3、资源利用率低
4、无法支持多种计算框架
YARN基本架构
这里写图片描述
YARN工作流程

这里写图片描述

3、MapReduce原理介绍

MapReduce是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法，是Hadoop面向大数据并行处理的计算模型、框架和平台。
MapReduce执行流包括input、map、shuffle、reduce和output共5个过程
这里写图片描述
YARN框架下的Mapreduce工作流程：

shuffle及排序：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据开发基础（上）学习笔记

1、HDFS简介Hadoop1.0与Hadoop2.0结构图 Hadoop 2.0的主要改进有：1、通过YARN实现资源的调度与管理，从而使Hadoop 2.0可以运行更多种类的计算框架，如Spark等。2、实现了NameNode的HA方案，即同时有2个NameNode（一个Active另一个Standby），如果ActiveNameNode挂掉的话，另一个NameNode会转入Active状
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。