分布式文件存储系统

基本介绍

概念

  1. GlusterFS 文件系统标准的posix接口支持,可以做分布式NAS,也有人HPC,甚至支持KVM的虚机卷;做分布式NAS最多,其他方面用的不多,很多互联网视频公司用GlusterFS来做片库;
  2. ceph,支持块ceph RBD,对象ceph RGW,文件cephfs;ceph RBD和ceph RGW比较成熟,在openstack社区比较火,做虚机块存储用的很多,cephfs的前期bug比较多,社区目前也在解决这些问题;
  3. Lustre,比较老牌的分布式文件系统,部署在多个san阵列上,不支持副本,支持分布式锁,主要做HPC高性能计算;
  4. HDFS只支持追加写,设计中没有考虑修改写、截断写、稀疏写等复杂的posix语义,目的并不是通用的文件系统,一般作为hadoop ecosystem的存储引擎;
  5. moosefs 比较接近GoogleFS的c++实现,通过fuse支持标准的posix,算是通用的文件系统,可惜社区不是太活跃;
  6. IBM的GPFS也是一个很老牌的分布式文件系统,非常强大,有两个分支,一个是通用文件系统,一个是兼容hadoop mapreduce,可惜没有开源,国内也没人买的起;
  7. Facebook Haystack是一个专有的图片存储系统的原型,适合小文件和worm场景(write once read many),本身并没有开源,GitHub上已经有一个比较成熟的实现Terry-Mao/bfs(不是百度的BFS)

选型:
每个流行的云存储系统都有自己的侧重点,可选的架构很多,关键是要针对特定的应用场景,可以从以下几个方面考虑选型:系统规模大小、业务类型与压力、实时 / 非实时、大文件 / 中等文件 / 小文件、连续读写 / 随机读写、吞吐率 / 低延迟、强一致性 / 弱一致性、性能 & 可靠性、扩展性 & 单节点问题、是否要求目录结构、可配置 & 快速部署、大数据离线/在线分析、电子商务、社交网络、网络硬盘、邮件服务、图片服务、语音视频服务、虚拟机调度与镜像存储、开放云存储平台……

中心化架构与对称架构并不是完全对立的,两者都可能存储大文件和小文件,区别只是相对而言的。在大数据存储、分析领域,中心化架构较多,HDFS仍然被广泛使用或模仿。而在互联网应用中(电子商务、社交网络、APP),以中小文件的存储为主,对称架构较多,Dynamo和BigTable的设计理念被广泛地参考。
大多数系统都抛弃了目录结构。因为目录树的开销非常大,去掉之后,集群的性能和扩展性被极大地提高。

云存储系统的架构大同小异,成功的关键在于细节:操作系统级优化、文件系统级优化、优秀的代码实现、稳定性……
关注个性化:
策略、代码和性能的优化。
数据分布方案 & 副本分布方案,文件去重。
模块化 & 插件化,可热拔插 & 动态替换。
抽象的存储引擎层,灵活地切换持久化存储或缓存。
融合SSD与机械硬盘,权衡性能与成本。
底层文件系统的选择与优化。
文件分块/聚合,增量同步,标准化接口(RESTfull、POSIX)。
系统部署与扩展的便捷性,自动化程度。
分布式环境下特别需要关注一致性问题,权衡性能与一致性等级。并发操作、各种版本冲突、机器故障、机器恢复、数据迁移与用户访问并存……集群状态不断变化,如何确保一致性约束。

一般而言:
离线型数据分析系统

  1. 数据总量大,单个文件大,更注重系统吞吐率,而非低延迟。
  2. 为适应流行的MapReduce模型,需要文件分块,并配合上层逻辑,采用大块顺序读写的方式提升性能。

线上服务系统

  1. 根据服务类型而采用差异化的存储方式。
  2. 针对语音视频等大文件,可能会采用与离线系统相同的方式,文件分块顺序读写,从而达到更高的传输速度。由于文件数量相对较少,有可能完全实现传统文件系统的目录结构与权限等功能。
  3. 电子商务、社交网络等应用场景,多为小文件(小图片与小视频、记录与评价信息等),文件数量庞大,增长快速,用户基数大,实时性要求高,读写随机性强,对性能与扩展性的要求很高。

HDFS

FastDFS

对比

FastDFS与Hadoop的区别:
hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用分块(切分)存储的方式;适用于大数据的处理,随机读写相对复杂。
FastDFS主要用于大中网站,为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持得比较好,FastDFS不会对文件进行分快(切分)存储。FastDFS适合存储小文件,随机读写比较简便。

FastDFSHDFS
开发语言CJAVA
系统概述两个角色跟踪器(tracker)和存储节点(storage),tracker负责调度,storage负责存储文件以及相关属性HDFS也是按照Master和Slave的结构,分NameNode、SecondaryNameNode、DataNode几个角色
文件同步没有使用数据库,文件同步直接点对点,不经过tracker中转hdfs使用分块的方式进行存储,存储一份文件同时会存储三个副本在不同节点和不同机架上
通信协议Socket通信协议,使用内置的web服务器支持http,或者使用第三方web服务,整合nginx或Apache web server支持socket协议及RPC通信协议,有相应的http服务接口
安装环境依赖gcc编译环境,FastDFS5.04版本以后将不依赖libevent库,libfastcommon是FastDFS官方提供的,必须安装依赖JDK环境
特性支持合并存储及将小的文件存储到大的文件当中;支持同一个文件只存储一份保存多个副本,且提供容错机制,副本丢失或宕机自动恢复,默认存3份;可以运行在廉价的机器上;适合大数据的处理;默认将文件按键值对分割存储
单机版安装centos6.4,fastDFS5.05 ,libfastcommon1.07centos6.4,hadoop2.5.2,jdk8

安装部署方式

FastDFS-Java客户端

dependency并没有放置在 maven 仓库;其他仓库不知道有没有,所以需要自己本地打包安装。找到源码地址即可。
原创版:
https://github.com/happyfish100/fastdfs-client-java
改进版:
https://github.com/tobato/FastDFS_Client/
改进的特性,参考其 github 地址的 wiki:

安装步骤:

git clone git@github.com:happyfish100/fastdfs-client-java.git
mvn install
mvn install:install-file -DgroupId=fastdfs_client -DartifactId=fastdfs_client -Dversion=1.27 -Dpackaging=jar -Dfile=fastdfs-client-java-1.27-SNAPSHOT.jar

使用:
新建配置文件:

fdfs_client.conf
connect_timeout = 2
network_timeout = 30
charset = UTF-8
http.tracker_http_port = 80
http.anti_steal_token = no
http.secret_key = FastDFS1234567890
tracker_server = 192.168.17.112:22122
#tracker_server = 192.168.0.119:22122

https://blog.csdn.net/wzl19870309/article/details/74049204
https://github.com/happ
yfish100/fastdfs-client-java
https://github.com/tobato/FastDFS_Client/

git clone git@github.com:happyfish100/fastdfs-client-java.git
mvn install
mvn install:install-file -DgroupId=fastdfs_client -DartifactId=fastdfs_client -Dversion=1.27 -Dpackaging=jar -Dfile=fastdfs-client-java-1.27-SNAPSHOT.jar

Spring Boot 集成 FastDFS

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

johnny233

晚饭能不能加鸡腿就靠你了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值