Glusterfs目录ls性能优化方案分析

目的和优化思路

讨论了glusterfs对文件系统爬虫rsync/ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作,减少fuse client的负载,减少req的网络轮询次数,减少一次网络通信时间,缓存预抓取,并发,异步,bulk 传输

fuse readdirplus

centos 6.4最新内核,支持fuse readdirplus。微调mount timeout参数。

readdir-ahead

这个已经合并到3.5release以后了。主要进行了单线程ls顺序目录读的优化。通过在opendir时(在执行回调时)去提前抓取目录项作为缓存,同时也会在glusterfs readdirplus支持(内核和glusterfs fuse都支持)的情况下,抓取目录项的inode属性和扩展属性,readdir(p)时可以直接返回或者此时抓取目录项缓存。基于fuse readdirplus性能会更加优化。基于fd生命周期进行的缓存。功能还很不强大,需要强化。

FUSE_AUTO_INVAL_DATA

根据内核FUSE_AUTO_INVAL_DATA支持,启用--fopen-keep-cache mount选项。 新内核版本支持。glusterfs fuse默认行为是写操作是同步的,读文件操作从page cache中读。当打开一个文件时,失效原来file的page cache。启用此选项后,就可以根据需要,如果原来file page cache 内容没变,就不进行失效操作。

quick-read

glusterfs3.4把quick-read(3.3就这一个translaotr)分解为openbehind和quick-read。原来设计不管操作文件的目的是什么,都要获取真正的fd。重构后,可以根据文件操作目的,如果是修改文件内容,就在背景打开文件并进行操作。如果仅仅是fstat等类似操作,就利用匿名fd来进行,不会等待真正的fd。这样根据操作目的,优化了性能。在lookup时根据需要,设置xdata key,在posix translator层就抓取文件内容。read操作执行到quick-read层时就返回文件内容。

md-cache

主要是inode attr和xattr在readdir (p)时抓取;lookup只抓取当时操作的目录或文件的inode属性,而不是所有目录项。这个translator可以对ls时候对stat和扩展属性抓取导致的延迟进行优化。但目前我们一般关闭selinux和acl扩展属性支持,所以扩展属性的ls优化暂时不起作用。

其他可能影响的translator,有待分析

  • io-threads 服务器和客户端设置

  • libaio

  • scatter-gather IO

进一步的优化方向

  • fuse内核当前支持4k readdir buffer大小。可以修改内核代码支持较大chunk的buffer。readdir-ahead就是用一个glusterfs rpc 128k buffer进行了bulk获取,但也仅仅是在用户空间进行了预抓取。Brian Foster进行了这方面的优化实验。

  • 强化readdir-ahead,做成一个强大的client缓存架构,先做目录项缓存,后面再考虑其他的。

    • 多线程,非顺序目录读的情况

    • 缓存基于inode,进行持久缓存

    • Xavier Hernandez提出了取代inodelk/entrylk的一种无锁架构,有助于在client实现一个强大的缓存。目前社区已经进行了一次讨论缓存架构的头脑风暴。正在跟进。

    • dht读目录本来就是顺序(一个一个brick进行读取),应该分析是否可以放宽这样的限制

  • 小文件合并为大文件的transtlaotr。这个可以参考hystack和tfs的实现。

  • 参考hdfs的中央缓存架构,不在client做真正的缓存,而在brick端缓存,client只做路由。或者client和brick都做缓存。

  • 分层存储。这个glusters 已经在开始做了。

参考资料

gluster maillist,irc,code,review。


展开阅读全文

Git 实用技巧

11-24
这几年越来越多的开发团队使用了Git,掌握Git的使用已经越来越重要,已经是一个开发者必备的一项技能;但很多人在刚开始学习Git的时候会遇到很多疑问,比如之前使用过SVN的开发者想不通Git提交代码为什么需要先commit然后再去push,而不是一条命令一次性搞定; 更多的开发者对Git已经入门,不过在遇到一些代码冲突、需要恢复Git代码时候就不知所措,这个时候哪些对 Git掌握得比较好的少数人,就像团队中的神一样,在队友遇到 Git 相关的问题的时候用各种流利的操作来帮助队友于水火。 我去年刚加入新团队,发现一些同事对Git的常规操作没太大问题,但对Git的理解还是比较生疏,比如说分支和分支之间的关联关系、合并代码时候的冲突解决、提交代码前未拉取新代码导致冲突问题的处理等,我在协助处理这些问题的时候也记录各种问题的解决办法,希望整理后通过教程帮助到更多对Git操作进阶的开发者。 本期教程学习方法分为“掌握基础——稳步进阶——熟悉协作”三个层次。从掌握基础的 Git的推送和拉取开始,以案例进行演示,分析每一个步骤的操作方式和原理,从理解Git 工具的操作到学会代码存储结构、演示不同场景下Git遇到问题的不同处理方案。循序渐进让同学们掌握Git工具在团队协作中的整体协作流程。 在教程中会通过大量案例进行分析,案例会模拟在工作中遇到的问题,从最基础的代码提交和拉取、代码冲突解决、代码仓库的数据维护、Git服务端搭建等。为了让同学们容易理解,对Git简单易懂,文章中详细记录了详细的操作步骤,提供大量演示截图和解析。在教程的最后部分,会从提升团队整体效率的角度对Git工具进行讲解,包括规范操作、Gitlab的搭建、钩子事件的应用等。 为了让同学们可以利用碎片化时间来灵活学习,在教程文章中大程度降低了上下文的依赖,让大家可以在工作之余进行学习与实战,并同时掌握里面涉及的Git不常见操作的相关知识,理解Git工具在工作遇到的问题解决思路和方法,相信一定会对大家的前端技能进阶大有帮助。
©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值