【Hadoop】1.由大数据到Hadoop_从大数据到hadoop-CSDN博客

本文链接：https://blog.csdn.net/The_dream1/article/details/116201673

【Hadoop】1.由大数据到Hadoop

1 大数据概论
2 Hadoop
3 Hadoop组成

1 大数据概论

大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程.优化能力的海量、高增长率和多样化的信息资产。

大数据的特点：
1）Volume（大量）
2）Velocity(高速)
3）Variety（多样）
4）Value（低价值密度）

正是为了解决 —— 海量数据的存储和海量数据的分析计算问题，Hadoop就由此而诞生了。

2 Hadoop

2.1 Hadoop是什么

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈

2.2 Hadoop发展历史

1）Lucene–Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎

2）2001年年底成为apache基金会的一个子项目

3）对于大数量的场景，Lucene面对与Google同样的困难

4）学习和模仿Google解决这些问题的办法：微型版Nutch

5）可以说Google是hadoop的思想之源(Google在大数据方面的三篇论文)

GFS —>HDFS
Map-Reduce —>MR
BigTable —>Hbase

6）2003-2004年，Google公开了部分GFS和Mapreduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制，使Nutch性能飙升

7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中

8）名字来源于Doug Cutting儿子的玩具大象

9）Hadoop就此诞生并迅速发展，标志这云计算时代来临

2.3 Hadoop三大发行版本

1）Apache：
官网地址：http://hadoop.apache.org/releases.html
下载地址：https://archive.apache.org/dist/hadoop/common/

2）Cloudera：
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

3）Hortonworks：
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform

2.4 Hadoop的优势（4高）

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
4）高容错性：能够自动将失败的任务重新分配。

3 Hadoop组成

3.1 Hadoop的两种版本

Hadoop有两种：Haddop1.x 和 Hadoop2.x

在Hadoopl .x时代,Hadoop中的MapR educe同时处理业务逻辑运算和资源的调度,耦合性较大。

在Hadoop2.x时代，增加了Yam,Yarn只负责资源的调度,MapReduce只负责运算。

上图各模块的简介如下：

Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。
Hadoop MapReduce：一个分布式的离线并行计算框架。
Hadoop YARN：作业调度与集群资源管理的框架。
Hadoop Common：支持其他模块的工具模块。

3.2 HDFS架构概述

HDFS主要由以下3部分组成

NameNode (mm) :存储文件的元数据，如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等。
DataNode(dn): 在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode(2mn): 用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

HDFS主要的工作流程如下：

Secondary NameNode(2mn)监控NameNode (mm)
NameNode (mm)对每个数据节点（DataNode）进行数据操作

在这里插入图片描述

3.3 YARN架构概述

在这里插入图片描述
YARN的工作流程：

{图1-2步 }： Client端向主进程EesourceManager的ApplicationManager模块提交任务
{图3-5步 }：ApplicationManager按某策略选中某NodeManager的某Container来执行ApplicationMaster
{图第6步} ：AppliacationMaster根据Schenuler中的资源信息进行分配计算资源
{图第7步} ：ApplicationMaster向选中的NodeManager发送信息进行资源（Container）的调用（split 根据快进行分片（数据均匀））
{图第8步} ：Container向NodeManager汇报计算进度（Map+shakking ）
{图第9步}：NodeManager通过心跳包，将这些信息汇报给ApplicationMaster，ApplicationMaster根据汇总的信息，给出任务进度（Reduing ）
（图第10步：）：所有任务完成后，将信息一层层向上汇报到ApplicationMaster，ApplicationMaster再将结束信息汇报给ApplicationManager模块，ApplicationManager通告客户端任务结束。

上图部分模块作用：