2024年最全【Hadoop】Hadoop概述与核心组件

2401_84181501

于 2024-05-03 01:48:45 发布

阅读量257

点赞数 5

分类专栏：程序员文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/2401_84181501/article/details/138405201

版权

Hadoop组成
- 1.HDFS
  - - 管理者：NameNode（nn）
      - 工作者：DataNode（dn）
      - 辅助管理者：SecondaryNameNode（2nn）
      - HDFS的优缺点
      - 优点：
        
        缺点
      - HDFS的写数据流程
      - HDFS的读数据流程
  - 2.YARN
  - - YARN工作机制
      - YARN作业提交过程
      - 1.作业提交
        
        2.作业初始化
        
        3.任务分配
        
        4.任务运行
        
        5.进度和状态更新
        
        6.作业完成
      - YARN调度器和调度算法
      - FIFO调度器（First In First Out）
        
        2.容量调度器（Capacity Scheduler）
        
        特点
        
        资源分配算法
        
        3.公平调度器
        
        特点
        
        公平调度器队列资源分配方式：
  - 3.MapReduce
  - - MapReduce核心思想
      - Mapper:
      - Reduce:
      - MapReduce优缺点
      - 优点：
        
        缺点：
      - MapReduce进程
      - MapReduce框架原理
      - 1.MapTask并行度决定机制
        
        2.FileInputFormat切片解析
        
        3.TextInputFormat实现类
        
        TextInputFormat
        
        KeyValueTextInputFormat
        
        NLineInputFormat
        
        CombineTextInputFormat
        
        4.CombineTextInputFormat切片机制
      - MapReduce工作流程
      - mapTask阶段
        
        2.shuffle阶段
        
        3.reduce阶段
  - HDFS、YARN、MapReduce 三者关系
Hadoop生态体系
Hadoop的工作方式
Hadoop的守护进程

Hadoop概述

Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。

主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

Hadoop 发展历史

Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。
2001年年底Lucene成为Apache基金会的一个子项目。
对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。
学习和模仿Google解决这些问题的办法：微型版Nutch。
可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）
GFS —>HDFS
Map-Reduce —>MR
BigTable —>HBas
2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。
2006 年 3 月份，Map-Reduce和Nutch Distributed File System （NDFS）分别被纳入到 Hadoop 项目中，Hadoop就此正式诞生，标志着大数据时代来临。
名字来源于Doug Cutting儿子的玩具大象

Hadoop 三大发行版本

Apache、Cloudera、Hortonworks。

Apache 版本最原始（最基础）的版本，对于入门学习最好。【2006】
Cloudera 内部集成了很多大数据框架，对应产品 CDH。【2008】
Hortonworks 文档较好，对应产品 HDP。【2011】现在已经被 Cloudera 公司收购，推出新的品牌 CDP。官网地址：https://

最低0.47元/天解锁文章

2401_84181501

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2024年最全【Hadoop】Hadoop概述与核心组件

Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
复制链接

扫一扫