ADS3 Inverted File Index

Term-Document Incidence Matrix

行代表关键词,列代表了第几个文档。如果关键词存在这个文档,则为1,否则为0.形成一个矩阵。

Inverted File Index

Index is a mechanism for locating a given term in a text.

Inverted file contains a list of pointers (e.g. the number of a page) to all occurrences of that term in the text.

inverted file的每一行是一个关键词,列中描述了出现的次数和出现的位置。比如

No.TermTimes;Docs
1a<2;(1,2),(3,4)>
2arrive<1;(5,6)>

表示a出现了两次,分别在第一个document的第二个词和第三篇文章的第四个词。

Word Stemming

Process a word so that only its stem or root form is left.

不同时态单词仅记录词根

Stop Words

使用较为频繁的词,例如a,it,the不会被加入索引

Distributed indexing

硬盘中分区存储

Each node contains index of a subset of collection

每个节点存放一部分索引

Dynamic indexing

Thresholding

document:

返回前Top x的文档,通过权值排序

qury

对frequency进行升序排序,然后对原始qury中频率低的部分先搜索。

比如搜索彭于晏和王宝强,先搜索频率低的,也就是先搜索王宝强,然后在有关王宝强的结果里搜索彭于晏。

Measure

对于搜索引擎的评价:

Data Retrivel

1.correctness

2.Response time

3.Index space

Information Retrivel

relevant of answer set

注意区分data和information

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值