Hadoop入门(2)HDFS的核心概念和工作原理

本文深入探讨Hadoop的分布式文件系统HDFS,包括其优点和缺点,如大存储、高容错性,以及不适合小文件存储等。文章详细介绍了HDFS的专业术语,如数据块和元数据,以及核心组件——名称节点、第二名称节点和数据节点的角色。还详述了HDFS的工作流程,包括数据分块、备份、数据和节点损坏的检测,以及写入和读取文件的过程。
摘要由CSDN通过智能技术生成

Hadoop之HDFS

目录

一、简述Hadoop的生态系统

二、分布式文件系统

三、HDFS

(一)HDFS优点和缺点

(二)HDFS的部分专业术语

(三)HDFS的部分核心组件

(四)HDFS的工作流程

1、如何分块

2、如何备份

3、检测数据(块)损坏流程

4、检测数据节点(DN)损坏流程

5、写文件流程

6、读文件流程

四、参考与推荐


 

一、简述Hadoop的生态系统

  • Hadoop的核心是HDFS(分布式存储系统)+MapReduce(分布式计算框架)

 

  • Flume(日志收集,常用于推荐系统的数据收集)
  • Sqoop(数据转移,用于两个数据库的数据转移传递)
  • Storm(数据分析,即时计算,不同于hadoop的批量计算)
  • Ambari(简化Hadoop复杂操作的工具)
  • Mapreduce(解决数据计算问题,比较笨重,过时啦)
  • YARN(资源管理调度系统,出现在Hadoop2.x)
  • Hive("Hadoop的sql",将sql语言翻译成MapReduce程序)
  • Zookeeper(数据管理,约等于文件系统+通知机制)
  • Spark(数据清洗,简化Mapreduce的上手难度)
  • HDFS(解决数据存储问题)
  • Hbase(数仓建模,解决数据查询问题)

二、分布式文件系统

  • 集群:多个人在一起作同样的事 。
  • 分布式 :多个人在一起作不同的事 。
  • 分布式结构如下。 

  • 简而言之,分布式系统就是由多台机器组成的大的机器集群系统。而分布式文件系统就是将一个大文件分成多个小文件并存储,负责管理文件的系统。
  • 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode),正如字面意思一样,主机负责与外界打交道,从机被主机管理。 


三、HDFS

  • Hadoop的分布式文件系统。

(一)HDFS优点和缺点

  • 大存储(分布式)
  • 比传统机器读写快(并发读写,不受单台机器的吞吐量和容量限制)
  • 成本低,支持廉价硬件
  • 容错率高(因为支持备份)
  • 移动计算(把计算任务下发到数据所在的节点进行处理)
  • 不适合小文件存储。(生成的记录信息浪费空间)。
  • 适合用于处理批量数据,而不适合于随机定位访问(量大难查)。
  • 不适合多次修改(满
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值