黑马程序员学习Day1

通过这次学习,我对Hadoop有了初步的理解,并体会到了它在处理海量数据时的优势。首先,是分布式和集群的概念的理解。其次,了解到大数据体系中,分布式的调度主要有2类架构模式:去中心化模式和中心化模式。Hadoop是主从模式(中心化模式)的架构。之后,又简单了解了Apache Hadoop框架和Hadoop的发展。通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,我们会说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架。

1.Hadoop指Apache这款开源框架,它的核心组件有:

HDFS(分布式文件系统):解决海量数据存储

MAPREDUCE(分布式运算编程框架):解决海量数据计算

YARN(作业调度和集群资源管理的框架):解决资源任务调度

2.Hadoop模块之间的关系

MapReduce计算需要的数据和产生的结果需要HDFS来进行存储

MapReduce的运行需要由Yarn集群来提供资源调度

3.Hadoop的发展

• 创始人Doug Cutting

• 基于Nutch搜索项目发展

• 发展受到Google三篇著名的论文影响

4.Hadoop的版本

• Apache 开源社区版 (原生版本)

• Cloudera等商业公司自行封装的商业版

最后,今天最印象深刻的是老师所提问的两个问题:

1.分布式和集群区别?

分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。

集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。

2.Hadoop中HDFS模块和Yarn模块:

(1)NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据.x架构内部模型-HDFS和Yarn

(2)数据计算核心模块:

ResourceManager:接收用户的计算请求任务, 并负责集群的资源分配

NodeManager: 负责执行主节点分配的任务

总的来说,学习Hadoop的分布式与集群分布式让我受益匪浅。它不仅提高了我的技术水平,还让我对大数据处理有了更深刻的认识。我相信,在未来的学习中,我会继续探索Hadoop的更多特性和应用,为大数据处理领域做出更大的贡献。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值