Hadoop学习——Hadoop概述

雷神乐乐

已于 2024-04-23 10:58:59 修改

阅读量342

点赞数

分类专栏： # Hadoop 文章标签： hadoop 学习大数据

于 2023-02-01 22:38:06 首次发布

本文链接：https://blog.csdn.net/Helen_1997_1997/article/details/128821939

版权

Hadoop 专栏收录该内容

12 篇文章 3 订阅

订阅专栏

1.HDFS(NameNode(nn)、DataNode(dn)、Secondary NameNode(2nn))

2.YARN(ResourceManager（RM）、NodeManager（N M）)——海量数据的存储

3.MapReduce——海量数据的计算

(五)Hadoop与关系型数据库对比

(六)Hadoop常用端口号

大数据是指无法在一定时间用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术要解决的问题：海量数据存储和海量数据计算。

(一)Hadoop概念

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

(二)Apache Hadoop下载网址

官网地址：http://hadoop.apache.org

下载地址：https://hadoop.apache.org/releases.html

(三)Hadoop优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性：能够自动将失败的任务重新分配。

5）低成本：Hadoop架构允许部署在廉价的机器上。

(四)Hadoop架构

1.HDFS(NameNode(nn)、DataNode(dn)、Secondary NameNode(2nn))

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。

1）NameNode(nn)——元数据节点：即管理数据都存储在什么位置，它存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等，一个HDFS集群只有一个Active的NN，在自动故障恢复过程中，如果同时存在两个Active NameNode，就会出现脑裂。

2）DataNode(dn)——数据节点：即具体存储数据，它在本地文件系统存储文件块数据，以及块数据的校验和，数据存储节点，保存和检索Block，一个集群可以有多个数据节点。

3）Secondary NameNode(2nn)——从元数据节点：每隔一段时间对NameNode元数据备份，合并NameNode中的edit logs到fsimage文件中，辅助nn将内存中元数据信息持久化，记录nn的日志信息。

HDFS脑裂：

《HDFS~脑裂》

2.YARN(ResourceManager（RM）、NodeManager（N M）)——海量数据的存储

Yet Another Resource Negotiator 简称 YARN，另一种资源协调者，是 Hadoop 的资源管理器。

1）ResourceManager（RM）：所有资源的管理者。

2）NodeManager（N M）：单个节点服务器资源的管理者。

3）ApplicationMaster（AM）：单个任务运行的管理者。

4）Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。1~8GB。

说明1：客户端可以有多个

说明2：集群上可以运行多个ApplicationMaster

说明3：每个NodeManager上可以有多个Container

3.MapReduce——海量数据的计算

MapReduce 将计算过程分为两个阶段：Map 和 Reduce

1）Map 阶段并行处理输入数据。

2）Reduce 阶段对 Map 结果进行汇总。

(五)Hadoop与关系型数据库对比

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化
应用场景	交互式OLAP分析 ACID事务处理企业业务系统	处理非结构化数据海量数据存储计算