找到一个适合的分布式文件系统之各种分布式文件系统优缺点对比

 

一、各种分布式文件系统对比

1.1 表格对比

技术

优点

缺点

总结

1、   HDFS

1、大数据批量读写,吞吐量高;

2、一次写入,多次读取,顺序读写;

1、交互式应用,低延迟很难满足;

2、不支持多用户并发写相同文件。

如果是很多小文件,nameNode压力大

2、    googleFs

1、成本低,运行在廉价的普通硬件上

1、不开源

不开源,使用困难

3、   Tfs

1、    开源

1、小于1M的文件

2、TFS内部是没有任何数据的内存缓冲的

 适合单个文件比较小的系统

4、   Lustre

1、  开源

2、  支持POSIX

3、  文件被分割成若干的Chunk,每个chunk是一般为1MB-4MB

 

 

5、 Ceph

 

1、支持POSIX

2、开源

 

 

1、  在Linux主流内核中找到ceph

2、不成熟,处于测试推广阶段

6、  MogileFs

1、开源

 

 比FastDFS

7、   FastDFS

1、  开源

2、  适合以文件为载体的在线服务

3、  FastDFS没有对文件做分块存储

4、  不需要二次开发即可直接使用

5、  比mogileFS更易维护和使用

6、  直接使用socket通信方式,相对于MogileFS的HTTP方式,效率更高。

1、文件访问方式使用专有API,不支持POSIX

 

8、swiftfs

 

 

1、基于HDFS

9、NFS

1、用户和程序可以象访问本地文件一样访问远端系统上的文件

 

 

 

 

开源的分布式文件/对象系统比较有名的包括Lustre(HPC)GlusterFS(NAS NFS)、HDFS(hadoop)、ceph(虚机块存储)、swift(restful对象存储),各有不同的领域。

 

1.2 相关链接

1.2.1     Hadoop

http://tech.it168.com/a2012/1029/1414/000001414776.shtml

hadoop文档 :http://hadoop.apache.org/

https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

1.2.2     Googlefs 不开源

1.2.3     Tfs

开源首页:http://tfs.taobao.org/

1.2.4     Lustre

http://lustre.org/

http://lustre.org/getting-started-with-lustre/

1.2.5     ceph:

社区网站地址:
http://ceph.org.cn/
中文文档:
http://docs.ceph.org.cn/start/intro/

源码:https://github.com/ceph/ceph

https://www.oschina.net/translate/ceph

http://dockone.io/article/307

1.2.6     MogileFs

1.2.7     fastdfs

http://elf8848.iteye.com/blog/1739596

MogileFsFastDFS 对比:http://blog.csdn.net/wishfly/article/details/6940504

http://www.sunnyu.com/?p=105

http://bbs.chinaunix.net/thread-2001101-1-1.html

1.2.8     swiftfs

https://github.com/ovh/svfs

https://wiki.openstack.org/wiki/Swift

https://support.rackspace.com/how-to/swift-filesystem-for-hadoop/

1.2.9     综合

 现在主流的开源分布式文件系统架构有哪些?

https://www.zhihu.com/question/19832447

 如何选择分布式文件系统?

https://segmentfault.com/q/1010000000449947

 各种分布式文件系统

http://os.51cto.com/art/201007/212689_all.htm

索引树:http://bbs.chinaunix.net/tree/index_304_1/

当下流行的分布式文件系统大阅兵

http://os.51cto.com/art/201007/212689_all.htm

 

公众号:关注【哥妞】,了解技术,学会泡妞~
[个人博客]

  • 8
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
TFS(Taobao FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,其设计目标是支持海量的非结构化数据。 目前,国内自主研发的文件系统可谓凤毛麟角。淘宝在这一领域做了有效的探索和实践,Taobao File System(TFS)作为淘宝内部使用的分布式文件系统,针对海量小文件的随机读写访问性能做了特殊优化,承载着淘宝主站所有图片、商品描述等数据存储。 文章首先概括了TFS的特点:最近,淘宝核心系统团队工程师楚材(李震)在其官方博客上撰文(《TFS简介》,以下简称文章)简要介绍了TFS系统的基本情况,引起了社区的关注。 完全扁平化的数据组织结构,抛弃了传统文件系统的目录结构。 在块设备基础上建立自有的文件系统,减少EXT3等文件系统数据碎片带来的性能损耗。 单进程管理单块磁盘的方式,摒除RAID5机制。 带有HA机制的中央控制节点,在安全稳定和性能复杂度之间取得平衡。 尽量缩减元数据大小,将元数据全部加载入内存,提升访问速度。 跨机架和IDC的负载均衡和冗余安全策略。 完全平滑扩容。 当前,TFS在淘宝的应用规模达到“数百台PCServer,PB级数据量,百亿数据级别”,对于其性能参数,楚材透漏: TFS在淘宝的部署环境中前端有两层缓冲,到达TFS系统的请求非常离散,所以TFS内部是没有任何数据的内存缓冲的,包括传统文件系统的内存缓冲也不存在......基本上我们可以达到单块磁盘随机IOPS(即I/O per second)理论最大值的60%左右,整机的输出随盘数增加而线性增加。 TFS的逻辑架构图1如下所示: 图1. TFS逻辑架构图(来源:淘宝核心系统团队博客) 楚材结合架构图做了进一步说明: TFS尚未对最终用户提供传统文件系统API,需要通过TFSClient进行接口访问,现有JAVA、JNI、C、PHP的客户端 TFS的NameServer作为中心控制节点,监控所有数据节点的运行状况,负责读写调度的负载均衡,同时管理一级元数据用来帮助客户端定位需要访问的数据节点 TFS的DataServer作为数据节点,负责数据实际发生的负载均衡和数据冗余,同时管理二级元数据帮助客户端获取真实的业务数据。 标签:分布式  阿里巴巴

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

伍六七AI编程

你猜你给我1分我要不要

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值