大数据技术之Hadoop(快速入门)

最新推荐文章于 2024-07-28 16:45:11 发布

江苏彭与晏

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量616

点赞数 6

文章标签：大数据

本文链接：https://blog.csdn.net/m0_72633303/article/details/127703854

版权

第一章 Hadoop概述

1.1 什么是Hadoop

1.2 Hadoop 产生背景

Hadoop之父：Doug cutting

1.3 Hadoop 三大发行版本

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。

1.4 Hadoop 优势（4高）

1.5 Hadoop 四大模块

hadoop common 基础模块。主板

hadoop hdfs 分布式文件系统。硬盘

hadoop yarn 资源调度系统 win7系统

Hadoop mapreduce 分布式计算框架 CPU计算

1.5.1 HDFS 架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

1.5.2YARN 架构概述

Yet Another Resource Negotiator 简称YARN ，另一种资源协调者，是Hadoop 的资源管理器。

1.5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

1.5.4 HDFS、YARN、MapReduce三者关系

1. 大数据技术生态体系

图中涉及的技术名词解释如下：

第一章 Hadoop概述

1.1 什么是Hadoop

Hsdoop是apache旗下的一套开源软件平台
Hsdoop提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理
Hadoop的核心组件有

Hdfs（分布式文件系统）Hadoop distributed File System
Yarn (运算调度系统）
Mapreduce (分布式运算编程框架）

4. 广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2 Hadoop 产生背景

Hadoop之父：Doug cutting

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

分布式文件系统（GFS），可用于处理海量网页的存储 Google File System
分布式计算框架Mapreduce，可用于处理海量网页的索引计算问题。mapReduce
分布式数据的存储BigtableNutch的开发人员完成了相应的开源实现Hdfs和Mapreduce，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期

1.3 Hadoop 三大发行版本

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。2006

Cloudera内部集成了很多大数据框架，对应产品CDH。2008

Hortonworks文档较好，对应产品HDP。2011

Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP。

1.4 Hadoop 优势（4高）

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
高容错性：能够自动将失败的任务重新分配。

1.5 Hadoop 四大模块

在这里插入图片描述

hadoop common 基础模块。主板
hadoop hdfs 分布式文件系统。硬盘
hadoop yarn 资源调度系统 win7系统
Hadoop mapreduce 分布式计算框架 CPU计算

1.5.1 HDFS 架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

（1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
（2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
（3）Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。

1.5.2YARN 架构概述

Yet Another Resource Negotiator 简称YARN ，另一种资源协调者，是Hadoop 的资源管理器。

在这里插入图片描述

ResourceManager(RM)：整个集群资源（内存、CPU等）的管理者
NodeManager(NM)：单个节点服务器资源的管理者。
ApplicationMaster(AM)：单个任务运行的管理者。
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

说明1：客户端可以有多个

说明2：集群上可以运行多个ApplicationMAster

说明3：每个NodeManager上可以有多个Container

1.5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

在这里插入图片描述

1.5.4 HDFS、YARN、MapReduce三者关系

在这里插入图片描述

1. 大数据技术生态体系

在这里插入图片描述

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。