信息检索

关系数据库中:数据----结构化,文本数据----非结构化

1、信息检索(information retrieval):就是非结构化的文本数据的检索。

信息检索与数据库侧重点不同:强调基于关键字的查询、文档与查询的相关性,以及文档的分析、分类和索引等问题。Web搜索引擎不局限于文档检索,而同时研究更为广泛的问题来满足用户的信息需求,譬如显示那些信息作为关键字查询的结果。

在web环境中,每个HTML页面通常被认为是一份文档。

文档本身已经与一组关键字相关联,如果文档的关键字包含用户提供的关键字,就被检索出来。

基于关键字的信息检索不仅用于检索文本数据,还可用于检索其他类型的数据,如视频和音频数据。

在全文检索中,每份文档的所有词都当做关键字。对于非结构化文档,因为可能无法得到有关信息来判断文档中那些词为关键字,所以全文检索是必要的。根据术语出现拼读的信息和超链接信息估计相关性。

2、术语的相关性排名

信息检索系统估计文档与查询的相关性,并且只返回高度相关的文档作为结果。相关性排名不是一门精密科学:

i:    TF-IDF排名方法

问题:给定一个特定的术语t,某份特定文档d与该术语的相关性如何。

方法:用该文档中该术语的出现次数作为对相关性的度量,基于的假设:相关的术语很有可能在文档中提及多次。只统计一个术语的出现次数通常不是一个好的相关性指示器:首先,出现次数取决于文档的长度;其次,某个术语出现10次的文档的相关性可能并不是术语只出现1次文档的相关性的10倍。

TF(d,t)=log(1+n(d,t)/n(d))

TF(d,t)(term frequency):文档d对术语t的相关性    ; n(d): 文档中术语的个数  ;n(d,t):文档d中术语t出现次数

公式考虑了文档的长度,文档中术语的出现次数越多相关性越大,尽管不是直接正比于出现次数

逆文档频率(inverse doucument frequency)对术语赋权值:IDF(t)=1/n(t)

3、使用超链接的相关性排名

流行度排名(popularity ranking),威望度排名(prestige ranking)的基本思想:找到流行的页面,并且把它们的位置排在同样包含指定关键字的其它页面之前。

估计页面的流行度方法:使用链接到该页面的页面数目作为流行度的度量;流行度与站点相关联,而不是页面相关联。一个站点的所有页面获得该站点的流行度。

3、web的抓取和索引

网络爬虫(web crawler)是定位和收集web上的信息的程序。它们沿着已知文档中存在的超文本链接递归地找到其他文档。从一组可有人工设定的厨师链接开始,一句URL链接抓取WEB上的页面。随后,爬虫定位抓取到的页面中所包含的所有URL链接信息,若果这些链接所指向的页面没有被抓取过,而且也不存在于当前的待抓取集合中,那么爬虫就把他们加入到待抓取的URL链接集合中。这一过程将以不断抓取集合中的页面并处理这些页面中的链接的形式反复进行。通过以上的过程,所有可以由初始集合中的URL出发以任意的链接顺序到达的页面都将被抓取到。

 

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值