这篇论文跟普通的论文是区别的,它并不是针对现有问题,提出一个新颖的解决方案,然后对其进行测试评估。
这篇论文主要是对
文件系统的代码发展做了一个全面的研究。通过分析linux文件系统8年来在5097个补丁之间的改变。在文件系统开发的过程中,
我们获得了很多新颖的(有时候是惊人的)观察。我们的结果对于文件系统开发本身和bug查找工具的发展都是十分有用的
1 Introduction
开源的本地文件系统,比如linux的ext4,XFS,btrfs,仍然是现在存储界的关键组件。比如,很多最近的分布式文件系统会跨本地文件系统复制数据对象(和相关的元数据),比如google GFS和Hadoop的DFS。在手机上,大多数的用户数据都被本地文件系统管理。比如google android phones使用ext4和苹果的IOS设备使用HFSX。而且,桌面用户仍然不会定期备份他们的数据。在这种情况下,本地文件系统明显扮演了一个至关重要的角色,作为唯一的用户数据管理。
开源的本地文件系统仍然是一个移动目标。不同团队因为不同目的开发文件系统,这些文件系统加入新的特性使其快速进化,修复bugs,提高性能和可靠性。每几年都有很多新的文件系统被介绍。随着最近几年技术的改变(FLASH),在这一领域,我们可以期待甚至更多变化。
进一步分解bug的分类。
我们发现语义bugs是bug的主要类型,大约占了50%。
并发bugs是第二常见的bugs,大约占了20%左右。剩余的bugs分别为内存bugs和不正确的纠错码处理。在内存bugs分类中,内存泄露和空指针间接引用是最常见的。
我们一样从不同角度对bugs进行分类,以获取更进步一步的见解。我们发现我们研究的很多错误都会导致系统崩溃或者corruption,因此这是非常严重的。这些bugs主要包括
语义,并发,内存,纠错码bugs。以数据结构分类,我们发现btrees每行代码的错误相对较少。当以bugs是否发生在正常情况下还是发生在故障处理的过程中分类,我们发现,40%的bugs发生在故障处理的过程中。
除了以上我们研究的补丁,性能和可靠性的补丁一样是流行的,分别占补丁的8%和7%。
1.为什么研究是有用的?
研究驱动系统的设计:之前的研究关注的是测试,很少有关注系统的发展。对系统发展的研究,可以回答以下几个重要问题:1.文件系统的复杂性 2.主要的bugs类型 3.性能优化 4.可靠性增强 5文件系统之间的相似性
2.怎么研究?
手动补丁检查:
XFS,EXT4,BTRFS,EXT3,REISERFS,JFS,
LINUX 2.6 系列
5079个补丁