0. 简介
FastDFS 是一个应用级分布式文件存储服务,其采用中心型结构(类似GFS 、HDFS 、TFS 等),主要用于大中型网站存储资源文件。FastDFS 具有轻量级,支持高并发放访问,负载均衡,可扩展等优点。而FastDFS 最大的亮点就是对小文件的存储性能较好,这主要来自于其文件名策略。
1. 小文件存储性能优化
小文件的性能瓶颈主要来自于对元数据服务器(如FastDFS 中的TrackerServer 或TFS 中的NameServer )的访问,因为当文件本身大小很小时,元数据存储所占空间与文件内容存储所占空间的比例就变得较大,访问元数据所消耗资源与访问文件内容所消耗资源的比例也变得较大。因此,通常对小文件存储的优化方法主要有两大类思路:一是减少访问元数据的次数,比如Cache 预取;二是减少元数据所占的存储空间,比如FastDFS 使用的文件名策略。
2. FastDFS 文件名策略
FastDFS 中的文件名是在向StorageServer 存储文件时由系统指定的,文件名中包含了VolumeID 和FileID 。也就是说,当客户要读取某个文件时,通过在客户端对文件名进行解析,就可以知道该文件存储在哪个Volume 上和它在StorageServer 中的FileID 。但是此时用户还不能读取文件,因为他不知道Volume 内各个StorageServer 的ip 地址,也不知道应该从Volume 内的哪个StorageServer 中读取。所以用户需手持欲访问的文件的VolumeID 向TrackerServer 询问,TrackerServe 会均衡当前各StorageServer 的IO 负载状况,返回一个最佳的StorageServer 的ip 地址。最后用户与该StorageServer 连接,出示欲访问文件的FileID ,StorageServer 上会维持一个FileID 对应偏移量的表,从而得到欲访问文件的偏移量。
可见,FastDFS 的文件名策略将文件存储位置信息隐含在文件名中,从而减少了元数据量,达到了优化小文件存储性能的作用。