信息检索

最新推荐文章于 2021-03-25 13:25:42 发布

我不爱机器学习

最新推荐文章于 2021-03-25 13:25:42 发布

阅读量5k

点赞数 5

分类专栏： SQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengjizhiyou/article/details/81842415

版权

SQL 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

关系数据库中：数据----结构化，文本数据----非结构化

1、信息检索（information retrieval）：就是非结构化的文本数据的检索。

信息检索与数据库侧重点不同：强调基于关键字的查询、文档与查询的相关性，以及文档的分析、分类和索引等问题。Web搜索引擎不局限于文档检索，而同时研究更为广泛的问题来满足用户的信息需求，譬如显示那些信息作为关键字查询的结果。

在web环境中，每个HTML页面通常被认为是一份文档。

文档本身已经与一组关键字相关联，如果文档的关键字包含用户提供的关键字，就被检索出来。

基于关键字的信息检索不仅用于检索文本数据，还可用于检索其他类型的数据，如视频和音频数据。

在全文检索中，每份文档的所有词都当做关键字。对于非结构化文档，因为可能无法得到有关信息来判断文档中那些词为关键字，所以全文检索是必要的。根据术语出现拼读的信息和超链接信息估计相关性。

2、术语的相关性排名

信息检索系统估计文档与查询的相关性，并且只返回高度相关的文档作为结果。相关性排名不是一门精密科学：

i: TF-IDF排名方法

问题：给定一个特定的术语t，某份特定文档d与该术语的相关性如何。

方法：用该文档中该术语的出现次数作为对相关性的度量，基于的假设：相关的术语很有可能在文档中提及多次。只统计一个术语的出现次数通常不是一个好的相关性指示器：首先，出现次数取决于文档的长度；其次，某个术语出现10次的文档的相关性可能并不是术语只出现1次文档的相关性的10倍。

TF（d,t）=log(1+n(d,t)/n(d))

TF（d,t）（term frequency）:文档d对术语t的相关性； n(d)：文档中术语的个数；n(d,t)：文档d中术语t出现次数

公式考虑了文档的长度，文档中术语的出现次数越多相关性越大，尽管不是直接正比于出现次数

逆文档频率（inverse doucument frequency）对术语赋权值：IDF(t)=1/n(t)

3、使用超链接的相关性排名

流行度排名（popularity ranking）,威望度排名（prestige ranking）的基本思想：找到流行的页面，并且把它们的位置排在同样包含指定关键字的其它页面之前。

估计页面的流行度方法：使用链接到该页面的页面数目作为流行度的度量；流行度与站点相关联，而不是页面相关联。一个站点的所有页面获得该站点的流行度。

3、web的抓取和索引

网络爬虫（web crawler）是定位和收集web上的信息的程序。它们沿着已知文档中存在的超文本链接递归地找到其他文档。从一组可有人工设定的厨师链接开始，一句URL链接抓取WEB上的页面。随后，爬虫定位抓取到的页面中所包含的所有URL链接信息，若果这些链接所指向的页面没有被抓取过，而且也不存在于当前的待抓取集合中，那么爬虫就把他们加入到待抓取的URL链接集合中。这一过程将以不断抓取集合中的页面并处理这些页面中的链接的形式反复进行。通过以上的过程，所有可以由初始集合中的URL出发以任意的链接顺序到达的页面都将被抓取到。

我不爱机器学习

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。