文档号及词频(frq)信息格式如下:
文档号及词频文件里面保存的是倒排表,是以跳跃表形式存在的
此文件包含 TermCount个项,每一个词都有一项,因为每一个词都有自己的倒排表。
对于每一个词的倒排表都包括两部分,一部分是倒排表本身,也即一个数组的文档号及
词频,另一部分是跳跃表,为了更快的访问和定位倒排表中文档号及词频的位置。
对于文档号和词频的存储应用的是差值规则和或然跟随规则
文档号及词频(frq)信息格式如下:
文档号及词频文件里面保存的是倒排表,是以跳跃表形式存在的
此文件包含 TermCount个项,每一个词都有一项,因为每一个词都有自己的倒排表。
对于每一个词的倒排表都包括两部分,一部分是倒排表本身,也即一个数组的文档号及
词频,另一部分是跳跃表,为了更快的访问和定位倒排表中文档号及词频的位置。
对于文档号和词频的存储应用的是差值规则和或然跟随规则