自然语言处理在搜索引擎信息检索中的应用

最新推荐文章于 2023-12-27 17:55:22 发布

sddamoke

最新推荐文章于 2023-12-27 17:55:22 发布

阅读量4.5k

点赞数

文章标签：自然语言处理搜索引擎数据库算法存储 search

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sddamoke/article/details/1423111

版权

自然语言处理在搜索引擎信息检索中的应用

文章介绍了2002时使用的三种搜索技术，并提出了一个信息检索模型，并提出了一种分析输入搜索串以提高搜索精度的算法。

三种搜索技术是：基于robot的搜索、元搜索、目录搜索。

基于robot的搜索使用robot（spider或crawler）获取抓取网络上Web页面的内容，按照一定的存储结构存储到数据库中。当用户发出搜索请求时，服务器从数据库中搜索信息，并返回给用户。这是最原始的一种搜索技术，同时也是当前应用最广泛的技术。它获取的信息量大，全面，并易于更新。

元搜索又叫Multi search engine，他使用他人的搜索网站，然后对信息合并，返回用户。这种搜索引擎没有本地数据库，开发简单，但是信息反馈较慢。

目录搜索是最机械的一种搜索方式，他的数据库是靠专职编辑或志愿人员建立起来的。编辑人员对该站点或文章进行描述或分类，然后将站点的URL和描述放到类别中，当用户搜索时，只在这些描述中搜索。就目前来看，这种方式仍然在使用。一些Blog网站仍然让用户写tag和写描述信息，应该就是分类。

文章提出的信息检索模型分为4个模块，分别为：关键词预处理、特征提取、歧义消解、检索模块。

关键词预处理部分通过分词字典和知识库及相应算法将用户输入的关键词进行切分。这个分词过程异常复杂，有很多种分词算法和模型。分词算法有基于规则的理性方法也有基于统计（语料库）的经验主义方法。

特征提取阶段去掉一些不能作为特征的词，并提取一些有意义的词。

歧义消解阶段找出有意义的词。

检索模块利用分词得到的检索词从文中检索，找出相关度最高的文章。相关度的计算也需要一系列的算法。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理在搜索引擎信息检索中的应用

自然语言处理在搜索引擎信息检索中的应用文章介绍了2002时使用的三种搜索技术，并提出了一个信息检索模型，并提出了一种分析输入搜索串以提高搜索精度的算法。三种搜索技术是：基于robot的搜索、元搜索、目录搜索。基于robot的搜索使用robot（spider或crawler）获取抓取网络上Web页面的内容，按照一定的存储结构存储到数据库中。当用户发出搜索请求时，服务器从数据库中搜索
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。