2.试比较顺排文档和倒排文档的各自优势和检索效率。
顺排文档用文档中的所有记录逐条与检索提问进行匹配后选出合适的结果,常用的方法有表展开法(菊池敏典算法)和逻辑树展开法。
倒排文档是将顺排文档中的可检索标识(如作者、关键词等)取出,并按特定规则排列成有序系统(附加原顺排文档中的记录号),检索提问与可检索标识匹配后通过记录好获得相应文档。
两种文档组织方式各自有其优势和检索效率。
(1)顺排文档的优势在于文档的存储方式简单,易于维护和更新。同时,对于一些需要按照文档顺序进行检索的场景,顺排文档的检索效率较高。但由于文档中的每个词都需要存储在文档中,所以文档的存储空间较大,检索效率较低。
(2)倒排文档的优势在于它可以快速地找到包含某个关键词的文档,因为倒排索引表中记录了每个词在哪些文档中出现过。同时,由于倒排索引表中只需要记录每个词在哪些文档中出现过,所以存储空间较小。但需要建立索引表,时间和空间开销较大。
因此,对于需要按照文档顺序进行检索的场景,顺排文档的效率更高;而对于需要快速找到包含某个关键词的文档的场景,倒排文档的效率更高。在实际应用中,可以根据具体的需求选择合适的文档组织方式。
3.试分析经典检索评价与交