十四、HDFS在分布式系统中的应用(上)

最新推荐文章于 2022-08-05 13:23:20 发布

莫然

最新推荐文章于 2022-08-05 13:23:20 发布

阅读量454

点赞数

分类专栏：高并发系统解决套路杂谈

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huwenfeng_2011/article/details/52064573

版权

高并发系统解决套路杂谈专栏收录该内容

19 篇文章 0 订阅

订阅专栏

概述

HDFS基本思想

v 难以实现负载均衡

文件大小不一，负载均衡实现不易
用户自己控制文件大小，不大现实

v 并行化处理困难

只有一个节点资源处理一个文件
无法使用集群处理同一个文件

Hdfs的诞生

v 来自Google的GFS论文

GFS发表与2003年
HDFS相当于从理论上克隆GFS

v Hadoop Distributed File System

容易拓展的分布式文件系统
可运行在大量的廉价PC上，提供容错
性能保障

HDFS优势

v 高容错性

数据能自动保存多个副本
数据丢失后，自动恢复

v 适合批处理

能空余本地资源(CPU、内存)方便计算
数据位置暴漏给计算框架

v 适合大数据处理

GB、TB、PB级数据量
百万规模的文件数量
上万节点规模应用

v 流式文件访问

一次写入多次读取
保证数据一致性

v 可构建在廉价的PC上

通过多个副本提高可靠性
提供了容错和恢复机制

但是

v 低延迟的数据访问

大数据下无法做到毫秒级
低延迟与高吞吐率之间平衡(Tachyon可提供搞吞吐率)

v 小文件存取

文件一次性过多会占用NameNode大量内存
寻址时间超过读取时间

v 并发写入，文件随机修改

一个文件只能由一个人写
只支持append

HDFS的高可用

v NameNode HA

基于NFS共享存储解决方案
基于Zookeeper解决方案
基于QJM解决方案

v NameNode Federation

多个NameNode分管一部分目录
NameNode共用DataNode

HDFSFederation

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。