hadoop
文章平均质量分 94
vegetable chicken01
这个作者很懒,什么都没留下…
展开
-
Hadoop纠删码(Erasure Coding)简介
三副本机制1、什么是三副本默认情况下,HDFS会使用三副本机制来保证数据可用性,第一个副本存放在本地机架节点上,另一个副本存放在同一机架的另一个节点上,第三个副本存放在在不同机架的节点上。三副本机制可以减少机架间的数据传输,提高写操作的效率,保证数据的可用性,因为机架错误的概率要小于节点出错的概率2、三副本带来的问题三副本会造成存储空间200%的额外开销,还会在其他资源上造成浪费,比如在写数据时会造成额外的带宽消耗。尤其对于冷数据,因为查询的频率很低,第二个和第三个副本很少被访问,却依然占用了同样大原创 2021-08-17 21:35:05 · 2247 阅读 · 2 评论 -
Hadoop archive归档命令的使用
archive 命令有什么用archive 可以用来解决 Hadoop 中的小文件问题,当存在大量小文件时,会产生如下影响:HDFS 中,小文件过多会占用大量内存,NameNode 内存容量最终会成为限制集群扩展的瓶颈。HDFS 读写小文件更加耗时,因为每次都需要从 NameNode 获取元信息,并与对应的 DataNode 建立连接。小文件过多会开很多 map,一个 map 启动一个 ...原创 2020-04-28 17:28:02 · 524 阅读 · 0 评论 -
Hadoop NameNode 高可用 (High Availability) 实现解析
NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包...转载 2020-02-09 11:49:43 · 221 阅读 · 0 评论