通过这次学习,我对Hadoop有了初步的理解,并体会到了它在处理海量数据时的优势。首先,是分布式和集群的概念的理解。其次,了解到大数据体系中,分布式的调度主要有2类架构模式:去中心化模式和中心化模式。Hadoop是主从模式(中心化模式)的架构。之后,又简单了解了Apache Hadoop框架和Hadoop的发展。通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,我们会说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架。
1.Hadoop指Apache这款开源框架,它的核心组件有:
HDFS(分布式文件系统):解决海量数据存储
MAPREDUCE(分布式运算编程框架):解决海量数据计算
YARN(作业调度和集群资源管理的框架):解决资源任务调度
2.Hadoop模块之间的关系
MapReduce计算需要的数据和产生的结果需要HDFS来进行存储
MapReduce的运行需要由Yarn集群来提供资源调度
3.Hadoop的发展
• 创始人Doug Cutting
• 基于Nutch搜索项目发展
• 发展受到Google三篇著名的论文影响
4.Hadoop的版本
• Apache 开源社区版 (原生版本)
• Cloudera等商业公司自行封装的商业版
最后,今天最印象深刻的是老师所提问的两个问题:
1.分布式和集群区别?
分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。
集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。
2.Hadoop中HDFS模块和Yarn模块:
(1)NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据.x架构内部模型-HDFS和Yarn
(2)数据计算核心模块:
ResourceManager:接收用户的计算请求任务, 并负责集群的资源分配
NodeManager: 负责执行主节点分配的任务
总的来说,学习Hadoop的分布式与集群分布式让我受益匪浅。它不仅提高了我的技术水平,还让我对大数据处理有了更深刻的认识。我相信,在未来的学习中,我会继续探索Hadoop的更多特性和应用,为大数据处理领域做出更大的贡献。