Hadoop基础学习笔记

最新推荐文章于 2024-05-28 13:26:13 发布

Ren_19981111

最新推荐文章于 2024-05-28 13:26:13 发布

阅读量281

点赞数 13

分类专栏： Hadoop 文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/Ren_19981111/article/details/137797789

版权

本文介绍了Hadoop的核心组件，包括HDFS、MapReduce和Yarn，详细讲解了它们的功能和作用。HDFS提供了分布式海量数据存储，Yarn负责资源调度与任务管理，MapReduce则是分布式并行编程模型。此外，还提到了Hadoop生态圈中的Hive、HBase、Streaming和Zookeeper等组件。HDFS的基本架构为主从式，通过NameNode管理和DataNode存储数据，实现了高可用性措施，如冗余备份和跨机架副本存放。

摘要由CSDN通过智能技术生成

初识hadoop

核心组件

核心组件包括基础组件和常用组件

1. 核心组件：HDFS、MapReduce和Yarn
2. 常用组件：HBase、Hive、Hadoop、Streaming、Zookeeper等

组件介绍
1. HDFS：分布式海量数据存储功能
2. Yarn：提供资源调度与任务管理功能
  1. 资源调度：根据申请的计算任务，合理分配集群中的计算节点(计算机)。
  2. 任务管理：任务在执行过程中，负责过程监控、状态反馈、任务再调度等工作。
3. MapReduce：分布式并行编程模型和计算框架。解决分布式编程门槛高的问题，基于其框架对分布式计算的抽象map和reduce，可以轻松实现分布式计算程序。
4. Hive：提供数据摘要和查询的数据仓库。解决数据仓库构建问题，基于Hadoop平台的存储与计算，与传统SQL相结合，让熟悉SQL的编程人员轻松向Hadoop平台迁移。
5. Streaming：解决非Java开发人员使用Hadoop平台的语言问题，使各种语言如C++、python、shell等均可以无障碍使用Hadoop平台。
6. HBase：基于列式存储模型的分布式数据库。解决某些场景下，需要Hadoop平台数据及时响应的问题。Zookeeper：分布式协同服务。主要解决分布式下数据管理问题：统一命名、状态同步、集群管理、配置同步等
7. Zookeeper：分布式协同服务。主要解决分布式下数据管理问题：统一命名、状态同步、集群管理、配置同步等。
Hadoop生态圈

最低0.47元/天解锁文章

Ren_19981111

关注

13
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hadoop基础学习笔记

HDFS的核心文件是映像文件（image file）和事务日志（edit log），如果这些文件损坏，将会导致HDFS不可用。NameNode在创建HDFS文件时，会计算每个数据的校验和并存储起来。当客户端从DataNode获取数据时，他会将获取的数据的校验与之间存储的校验进行对比。从hdfs删除的文件首先会被放入到/trash中，/trash文件夹中的内容是被删除文件最后的副本。DataNode节点定时向NameNode节点发送心跳包，确保DataNode没有宕机、如果宕机，采用相应措施，比如数据备份。
复制链接

扫一扫