正向索引和倒排序索引

正向索引:以词为单位,记录每个关键词的词频、格式、位置等权重信息,把页面转换为一个关键词组成的集合。

正向索引不能直接用于排名,排名程序需要扫描所有索引库中的文件,找出包含关键词的文件,

再进行相关性计算,这样的计算量无法满足实时返回排名结果的要求。

 

正向索引举例:

文档号       关键字      位置
1            中国         3
1            经济         4
2            科技         2

 

倒排索引:把文件对应到关键词的映射转换为关键词到文件的映射。

关键词是主键,每个关键词都对应着一系列文件,只需要查询关键字就可以找到对应的文章,这样不需要进行全文扫描,

这样就大大提高了速度,也提升了服务器性。倒排序索引利于查找但不利于构建,特别不利于删除。

 

倒排序索引举例:

关键字      文章号及词频       位置
中国         (1,1)              (3)
经济         (1,2),(2,3)        (4,5),(6,8,9)
科技         (2,1)              (2)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值