目录
🐇BSBI算法(blocked sort-based indexing)
🐇SPIMI算法(single-pass in-memory indexing)
📚硬件基础
- 访问内存数据比访问磁盘数据快得多。
- 进行磁盘读写时,磁头移到数据所在的磁道需要一段时间,该时间称为寻道时间。寻道期间并不进行数据的传输。
- 操作系统往往以数据块为单位进行读写。因此,从磁盘读取一个字节和读取一个数据块所耗费的时间可能一样多。也就是说,将一大块数据从磁盘传输到内存比传输许多小块要快。
- IR系统的服务器往往有数GB甚至数十GB的内存,其可用的磁盘空间大小一般比内存大小要高几个数量级。
📚基于块的排序索引方法
- 面向静态文档集的高效单机索引算法
- 之前提出的倒排索引构建方法(如下)