正排索引和倒排索引的区别

搜索引擎通过文字提取、中文分词和去重等步骤建立正排索引,然后转换为倒排索引以提高搜索效率。正排索引记录页面与关键词的关系,而倒排索引则快速定位关键词对应的页面,使得用户搜索时能即时返回结果。这一过程对于搜索引擎的快速响应至关重要。
摘要由CSDN通过智能技术生成

1、正排索引
蜘蛛爬虫经过文字提取、中文分词、去重等操作后,得到的就是独特的、能反应页面的主题内容、以词为单位的字符串。接下来搜索引擎索引程序就可以提取关键词了,为该页面建立与关键词的对应关系,而这个过程就叫做正排索引。

2、倒排索引
当用户在搜索引擎搜索框中输入关键词的时候,搜索引擎就会把和关键词有关的页面展现给用户,而这个过程就叫做倒排索引。
正排索引是不能直接用于排名的,如果只存在正排索引,排名程序需要扫描所有索引库中的文件,找出包含这个关键词的文件,在进行相关性的计算。这样就不能实时返回排名结果。
所以,搜索引擎会将正排索引数据库重新构造为倒排索引,把页面对应到关键词的关系表,转化为关键词对应的页面。
这样,当用户搜索某个关键词的时候,排名程序在倒排索引中定位这个关键词,就可以马上找到所有包含这个关键词的页面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值