Hadoop的核心是HDFS和MapReduce.
HDFS是解决海量大数据文件存储问题
是目前应用最广泛的分布式文件系统
目录
HDFS的演变
从谷歌的GFS演变而来。
解决单点故障问题:党存储数据块的服务器中突然有一台及其宕机,我们就无法正常的获取文件,这个问题称为单点故障问题。针对这个问题,可以采用备份机制解决。
NameNode记录着文件有多少个block,每个block存储在那个服务器上,以及它们的副本数为多少
DataNode负责存储block数据块。
HDFS基本概念
hdfs基本框架
Namenode![](https://i-blog.csdnimg.cn/blog_migrate/e14e578b6814fa17cfe86ea75e8bba72.png)
Datanode
Block数据块(文件切片),逻辑上的概念,默认128MB大小。
机架
存储Block要存在同一个机架上的不同主机。机架感知
元数据:
特点:
优点:高容错
流式数据访问
支持超大文件
高数据吞吐量
缺点:高延迟,
不适合小文件存取,
不适合并发写入
ps:小文件,元数据信息也是一样存。一样占用那么多空间………………会浪费空间啥的