理解倒排表

不是科班出身,对理论的理解总是后知后觉,跟不上形式。要不,就是看过了,学过了,没有讲过,就忘记了,然后再学,再忘。这次查看倒排表,突然想起来,08年春,我就查过是咋回事了,估计是当时理解的不够透彻,再加上年老体衰,竟然怎么也想不顺了。

 

下面举个例子:
案例1:
普通文档存在形式:
      PPT (从头看起.....)==> keywords1,keywords2,keywords3,keywords4,keywords5,.............
案例2:
倒排索引翻转后的结果显示:
      keywords1,keywords2,keywords3,keywords4,keywords5,............. (直接找关键字 然后在找内容页)==> PPT

 随便看什么书 应该分2种看法 一种是从头到尾法! 而另一种就是先看目录,看哪些是我需要看的。那么,直接就翻到该页面! 不然和第一个人一样从头一直看,看到你想要看的,那不是前面时间都浪费了?? 目录就起了个关键作用!

 

上面是我从网上找来的,在此做个记录。下面是我自己理解的

 

1. 索引的过程,就是对一个html处理的过程,就是建立倒排表的过程。

2. 正常的逻辑是,一个html上有word1,word2, word3. 如果要按照htmlID索引,用户查询wordID3, 就如同翻书一样,找用户查询的wordID3的网页在哪里。这就和上面提到看书一样,一页页的看。

3. 现在倒排的逻辑是,倒转过来,word1 word2 word3 对应在html(docID1)上。也就是每个word赋予一个ID,wordID1——>docID1, docID2, docID3,这样就如同通过目录找内容一样,很容易找,系统处理起来也非常的快

4. 索引的过程,就是对一个html页面上的文字做标注,

5. 索引完成后,接下来就是检索,按照相关性计算,排序等。这些在google的数学之美中都有介绍,也很通俗易懂。我就不copy了

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值