s3fs实现原理剖析

一、机制分析

1.读取文件

S3FS 对于文件的存储分为临时文件和缓存两种方式,用户可以在命令行中通过 use_cache 参数指定缓存目录来启动缓存方式。

用户通过 offset 和 size 来读取指定文件中的特定区域,如果本地没有相应的内容 S3FS 会通过网络请求 S3 上的相应内容,并且将对应的内容存储到本地的临时文件或者缓存中。

2.文件逻辑架构

不管是临时文件还是缓存文件,S3FS 都用同一个逻辑架构组织这个文件,S3FS 使用一个页的列表来代表一个文件,每页都是这个文件中的一部分,下图为对一个文件的逻辑组织架构:

  • FDPage:代表了一个文件中的一页,即也是文件中的部分内容。
参数名参数
offset偏移量
bytes页的大小
bytes是否加载到了本地
  • PageList:代表一个本地文件,它是 FDPage 的一个链表。
参数名参数
pagesfdpage的链表
  • FdEntity:对一个文件的全面描述,包括页链表、本地文件描述符、文件路径等。

3.读取文件流程

读取文件流程图:

  • 不启用缓存模式:不启用缓存模式下,S3FS 会在本地新建一个临时文件来存储网络传送过来的数据,读取结束后关闭相应的句柄,这样做得好处是如果多个进程同时读取同一个文件就不需要频繁的发起网络请求,当这个临时文件的所有句柄都关闭后这个临时文件也会删除。
  • 启用缓存模式:启用缓存模式下,S3FS 会将 S3 的数据在本地缓存一份,如果磁盘空间不够,S3FS 会删除部分没有连接的文件来预留出磁盘空间。对于需要经常访问的文件,有一份在本地的缓存非常有必要。

4.读取文件网络请求流程

通过网络请求 S3 的数据,S3FS 分为了两种,一种是单次请求,一种是多次请求,请求流程如下:

  • 单次请求:默认情况下单次请求的大小在 20M 以下,S3FS 会通过单个请求完成数据的请求。
  • 多次请求:默认情况下如果请求的数据在 20M 以上,S3FS 会切割数据进行多次请求,每次请求 10M 的数据,对单个文件的请求每次最多启动 5 个线程来进行数据的获取,并且是在 5 个线程都请求完成后才会启动下一轮请求。

 

二、代码文件分析:

1.原理概述:

代码层面s3fs的实现方法主要是:利用fuse库实现一个文件系统并挂载到本地文件系统的某个目录下,该文件系统的底层并不使用磁盘存储,而是使用s3 os存储(因为文件系统是自己实现的,用什么存储,怎么存储可以自己定);

2.相关代码:

s3fs项目一共有11个头文件,除去一个测试代码文件,一共有10个文件系统实现相关的文件,分别是:

1)curl.h

用于请求s3 os中的文件,多线程

2)fdcache.h

缓存文件相关类,包括fdpage、pagelist、FdEntity、FdManager,主要用于os中文件分页缓存到本地以及缓存文件的相关管理(比如检查存在、创建、清除等)

注意,若文件句柄持有线程为0,则该文件缓存被清除;

3)psemaphore.h

信号量机制实现类

4)s3fs.h

s3文件系统实现类,用于利用s3 os 为存储介质,构造一个文件系统挂载到本地文件系统目录中

5)s3fs_util.h

一些工具类

6)s3fs_auth.h

用于s3 os的认证

7)string_util.h

名字虽然是字符串工具,实际上是用于处理http协议的(header,body)

8)cache.h

文件缓存,将已读取或加载的文件缓存到本地,以备以后使用(相当于cpu的三级缓存)

9)common.h

主要用于日志记录

10)add_head.h

 

 

参考文章:https://blog.didiyun.com/index.php/2019/01/02/s3fs/

Kylin V10是一个用于大数据分析的开源工具,它支持Hadoop生态系统。若要在Kylin V10中集成S3作为存储系统,通常会使用S3FS(Simple Storage Service File System),这是一个可以让Hadoop读写Amazon S3的对象存储服务。 以下是Kylin V10安装配置S3FS的基本步骤: 1. **下载和安装S3FS**: 首先,你需要从Apache Hadoop的官方网站下载并安装S3FS的Hadoop connector。这通常是通过添加Hadoop的`hadoop-aws`包到你的Hadoop集群的`pom.xml`文件中,然后运行`mvn install`命令来完成。 ```bash pip install s3fs # 如果使用的是Python版本 ``` 2. **配置环境变量**: - 在`core-site.xml`中添加S3相关的属性,例如AWS access key和secret key: ```xml <property> <name>fs.s3.awsAccessKeyId</name> <value><your_access_key></value> </property> <property> <name>fs.s3.awsSecretAccessKey</name> <value><your_secret_key></value> </property> <property> <name>fs.s3n.awsAccessKeyId</name> <value><your_access_key></value> </property> <property> <name>fs.s3n.awsSecretAccessKey</name> <value><your_secret_key></value> </property> ``` 3. **启用S3FS**: - 在Hadoop的`hdfs-site.xml`中,将`hadoop.proxyuser.hadoop.groups`设置为你Hadoop用户所属的组,并允许对S3访问: ```xml <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value>*</value> </property> ``` 4. **验证配置**: - 使用`hadoop fs -ls s3a://<your_bucket_name>`命令测试连接是否成功。 5. **在Kylin配置中指定S3FS**: - 在Kylin的元数据存储配置中,将默认的数据源更改为S3。例如,在`kylin.properties`中修改`storage.default.url`: ```properties storage.default.url=s3a://<your_bucket_name> ``` 完成以上步骤后,你就可以在Kylin V10中使用S3FS了。注意替换相应的`<your_access_key>`, `<your_secret_key>`, 和 `<your_bucket_name>` 为实际的AWS凭据和S3存储桶名称。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

THMAIL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值