s3fs实现原理剖析

最新推荐文章于 2025-03-14 20:39:36 发布

THMAIL

最新推荐文章于 2025-03-14 20:39:36 发布

阅读量4k

点赞数 1

分类专栏：云计算

本文链接：https://blog.csdn.net/THMAIL/article/details/103567262

版权

38 篇文章

订阅专栏

1.读取文件

S3FS 对于文件的存储分为临时文件和缓存两种方式，用户可以在命令行中通过 use_cache 参数指定缓存目录来启动缓存方式。

用户通过 offset 和 size 来读取指定文件中的特定区域，如果本地没有相应的内容 S3FS 会通过网络请求 S3 上的相应内容，并且将对应的内容存储到本地的临时文件或者缓存中。

2.文件逻辑架构

不管是临时文件还是缓存文件，S3FS 都用同一个逻辑架构组织这个文件，S3FS 使用一个页的列表来代表一个文件，每页都是这个文件中的一部分，下图为对一个文件的逻辑组织架构：

参数名	参数
pages	fdpage的链表

3.读取文件流程

读取文件流程图：

不启用缓存模式：不启用缓存模式下，S3FS 会在本地新建一个临时文件来存储网络传送过来的数据，读取结束后关闭相应的句柄，这样做得好处是如果多个进程同时读取同一个文件就不需要频繁的发起网络请求，当这个临时文件的所有句柄都关闭后这个临时文件也会删除。
启用缓存模式：启用缓存模式下，S3FS 会将 S3 的数据在本地缓存一份，如果磁盘空间不够，S3FS 会删除部分没有连接的文件来预留出磁盘空间。对于需要经常访问的文件，有一份在本地的缓存非常有必要。

4.读取文件网络请求流程

通过网络请求 S3 的数据，S3FS 分为了两种，一种是单次请求，一种是多次请求，请求流程如下：

单次请求：默认情况下单次请求的大小在 20M 以下，S3FS 会通过单个请求完成数据的请求。
多次请求：默认情况下如果请求的数据在 20M 以上，S3FS 会切割数据进行多次请求，每次请求 10M 的数据，对单个文件的请求每次最多启动 5 个线程来进行数据的获取，并且是在 5 个线程都请求完成后才会启动下一轮请求。