倒排索引

最新推荐文章于 2024-07-08 06:53:03 发布

qq_1403034144

最新推荐文章于 2024-07-08 06:53:03 发布

阅读量137

点赞数

分类专栏：算法

原文链接：https://zhuanlan.zhihu.com/p/139041529

版权

15 篇文章 0 订阅

订阅专栏

1 过程

假设只有5个网站：

倒排列表：

DocID	分词出现的文档编号
TF	分词在该文档出现的次数
<POS>	分词在该文档出现的位置

百度会参考：
热度、你的搜索记录，网站给的钱等等综合打分，按评分高低返回排好序的搜索结果

世界上有亿万文档，此时怎么找的更快，更准，这需要算法

解决冲突：冲突表，也是链表，链表过长用红黑树，b树代替

b树：

文档的数量庞大

如何从磁盘中读取文档
1 两次遍历法
2 排序法

第 1 遍：确定要开辟多大的内存来显示文档
第 2 遍：边扫描，边匹配对应的文档编号（三元组中的第 1 个数），载入内存

具体：
第 1 遍：扫描文档，找到文档数量N, 文档集合内包含的不同单词数M 和每个单词出现的频率DF

不足
文档集合有多大，内存就有多大，很可能内存溢出

首先：内存大小是固定的

解析文档，构造（单词ID,文档ID，单词频率）三元组 - 排序，按单词ID,文档ID,单词频率先后排
若内存满了，将这些三元组写入临时文件A中，但词典一直在内存中！

关注

专栏目录