Hadoop学习系列（一）

最新推荐文章于 2023-10-25 21:27:03 发布

dzysunshine

最新推荐文章于 2023-10-25 21:27:03 发布

阅读量905

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/dzysunshine/article/details/94386493

版权

Hadoop 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

文章目录

1、大数据

功能：

主要是解决海量数据的存储和海量数据的分析计算问题（TB、PB、EB）
特点：

大量，计算机硬盘的容量为TB级别，一些企业的数据量已经接近EB量级
高速，处理数据的效率就是企业的生命
多样，数据分为结构化数据和非结构化数据，结构化数据主要有以数据库和文本为主，非结构化数据主要包括网络日志、音频、视频、图片、地理位置信息等 4. 低价值密度，如何快速对有价值的数据“提纯”

大数据应用场景：

物流仓储零售旅游商品广告推荐保险金融房产

2、Hadoop是什么

（1）是由Apache基金会所开发的分布式系统基础架构
（2）主要解决海量数据的存储和海量数据的分析计算问题
（3） Hadoop生态圈

3、Hadoop发展历史 ( Google是Hadoop的思想之源)

（1）GFS–>HDFS (2) Map-Reduce–>MR (3) BigTable

4、Hadoop的优势（4高）

（1）高可靠性：Hadoop底层维护多个数据副本
（2）高扩展性：在集群间分配任务数据，可方便地扩展数以千计的节点
（3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理的速度
（4）高容错性：能够自动将失败的任务重新分配

5、Hadoop1.x和2.x的区别

在这里插入图片描述
在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在Hadoop2.x时代，增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。

6、HDFS架构概述

（1）NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
（2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。
（3）Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

7、YARN架构概述

（1）Resource Manager
（2）NodManager
（3）ApplicationMAster
（4）Container
在这里插入图片描述

8、MapReduce架构概述

1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总

9、大数据技术生态体系

在这里插入图片描述

dzysunshine

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习系列（一）

文章目录1、大数据2、Hadoop是什么3、Hadoop发展历史 ( Google是Hadoop的思想之源)4、Hadoop的优势（4高）5、Hadoop1.x和2.x的区别6、HDFS架构概述7、YARN架构概述8、MapReduce架构概述9、大数据技术生态体系1、大数据功能：主要是解决海量数据的存储和海量数据的分析计算问题（TB、PB、EB）特点：大量，计算机硬盘的容量为TB级别...
复制链接

扫一扫