纯干货分享---不懂的快来，五分钟带你了解FastDFS-03---fastdfs的工作原理

最新推荐文章于 2024-08-22 08:42:02 发布

2401_83817689

最新推荐文章于 2024-08-22 08:42:02 发布

阅读量718

点赞数 27

分类专栏：程序员文章标签： linux 网络运维

本文链接：https://blog.csdn.net/2401_83817689/article/details/138685707

版权

程序员专栏收录该内容

375 篇文章 0 订阅

订阅专栏

group1/M00/02/44/wKgDre34E8wAAAAAAAAGkEIYJK42378.sh

例如下面是一个storage的存储数据的目录（由store_path0选项指定），data目录下有255个目录，每个目录下又有255个目录：

其中：
组名：文件上传后所在的存储组的名称，在文件上传成功后由存储服务器返回，需要客户端自行保存
虚拟磁盘路径：存储服务器配置的虚拟路径，与磁盘选项store_path*参数对应
数据两级目录：存储服务器在每个虚拟磁盘路径下创建的两级目录，用于存储数据文件
二、同步机制
新增tracker服务器数据同步问题
由于storage上配置了所有的tracker，storage和tracker之间的通信是由 storage server 主动发起的，storage为每个tracker启动一个线程进行通信
在通信过程中，若发现该tracker返回的本组storage列表比本机记录少，就会将该tracker上没有的storage同步给该 tracker，这样的机制使得tracker之间是对等关系，数据保持一致
新增storage服务器数据同步问题
若新增storage或者其状态发生变化，tracker都会将storage列表同步给该组内所有storage
以新增storage为例，因为新加入的storage会主动连接tracker，tracker发现有新的storage加入，就会将该组内所有的storage返回给新加入的storage，并重新将该组的storage列表返回给该组内的其他storage
组内storage数据同步问题
组内storage之间是对等的，文件上传、删除等操作可以在组内任意一台storage上进行。文件同步只能在同组内的storage之间进行，采用push方式，即源服务器同步到目标服务器
A. 只在同组内的storage server之间进行同步
B. 源数据才需要同步，备份数据不再同步
C. 特例：新增storage server时，由其中一台将已有所有数据（包括源数据和备份数据）同步到新增服务器
storage server的7种状态，通过命令fdfs_monitor /etc/fdfs/client.conf可以查看ip_addr选项显示storage server当前状态
INIT：初始化，尚未得到同步已有数据的源服务器
WAIT_SYNC：等待同步，已得到同步已有数据的源服务器
SYNCING：同步中
DELETED：已删除，该服务器从本组中摘除
OFFLINE：离线
ONLINE：在线，尚不能提供服务
ACTIVE：在线，可以提供服务
例如，现在在组内增加storage serverA状态变化过程如下：
①storage server A主动连接tracker，此时tracker将storage serverA状态设置为INIT
②storage server A向tracker询问追加同步的源服务器和追加同步截止时间点(当前时间)，若组内只有storage server A或者上传文件数为0，则告诉新机器不需要数据同步，storage server A状态设置为ONLINE ；若组内没有active状态机器，就返回错误给新机器，新机器睡眠尝试；否则tracker将其状态设置为 WAIT_SYNC
③假如分配了storage server B为同步源服务器和截至时间点，那么storage server B会将截至时间点之前的所有数据同步给 storage server A，并请求 tracker 设置 storage server A 状态为 SYNCING；到了截至时间点后，storage server B 向 storage server A 的同步将由追加同步切换为正常 binlog 增量同步，当取不到更多的 binlog 时，请求tracker将 storage server A 设置为OFFLINE状态，此时源同步完成
④storage server B 向 storage server A 同步完所有数据，暂时没有数据要同步时， storage server B 请求tracker将 storage server A 的状态设置为 ONLINE
⑤当storage server A向tracker发起心跳时，tracker将其状态更改为 ACTIVE，之后就是增量同步(binlog)

备注：
1.整个源同步过程是源机器启动一个同步线程，将数据 push 到新机器，最大达到一个磁盘的IO，不能并发
2.由于源同步截止条件是取不到binlog，系统繁忙，不断有新数据写入的情况，将会导致一直无法完成源同步过程
三、文件下载
流程如下：
client发送下载请求给某个tracker，必须带上文件名信息，tracker从文件名中解析出文件的group、大小、创建时间等信息，然后为该请求选择一个storage用于读请求
由于group内的文件同步在后台是异步进行的，可能出现文件没有同步到其他storage server上或者延迟的问题，后面我们在使用nginx_fastdfs_module模块可以很好解决这一问题

四、文件合并
小文件合并存储主要解决的问题：
本地文件系统inode数量有限，存储小文件的数量受到限制
多级目录+目录里很多文件，导致访问文件的开销很大（可能导致很多次IO）
按小文件存储，备份和恢复效率低
海量小文件存储问题请参考：
https://blog.csdn.net/liuaigui/article/details/9981135
https://blog.csdn.net/kidd_3/article/details/6909097
FastDFS合并存储原理分析可参阅：https://blog.csdn.net/hfty290/article/details/42026215#comments
FastDFS的合并存储功能
FastDFS提供合并存储功能，默认创建的大文件为64MB，然后在该大文件中存储很多小文件
大文件中容纳一个小文件的空间称作一个Slot：
规定Slot最小值为256字节，最大为16MB
即小于 256 字节的文件也要占用256 字节，超过16MB的文件独立存储
为了支持文件合并机制，FastDFS生成的文件file_id需要额外增加16个字节
合并后的文件叫trunk file：
每个trunk file由一个id唯一标识，trunk file由group内的trunk server负责创建（trunk server是tracker选出来的），并同步到group内其他的storage
文件存储合并存储到trunk file后，根据其文件偏移量就能从trunk file中读取文件
————————————————
原文链接：https://blog.csdn.net/qq_41453285/article/details/107155643

总结

本文讲解了我对Android开发现状的一些看法，也许有些人会觉得我的观点不对，但我认为没有绝对的对与错，一切交给时间去证明吧！愿与各位坚守的同胞们互相学习，共同进步！
《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》，点击传送门，即可获取！
频+大厂面试真题+项目实战源码》，点击传送门，即可获取！**