自然语言处理在搜索引擎信息检索中的应用

 
自然语言处理在搜索引擎信息检索中的应用
文章介绍了2002时使用的三种搜索技术,并提出了一个信息检索模型,并提出了一种分析输入搜索串以提高搜索精度的算法。
三种搜索技术是:基于robot的搜索、元搜索、目录搜索。
基于robot的搜索使用robot(spider或crawler)获取抓取网络上Web页面的内容,按照一定的存储结构存储到数据库中。当用户发出搜索请求时,服务器从数据库中搜索信息,并返回给用户。这是最原始的一种搜索技术,同时也是当前应用最广泛的技术。它获取的信息量大,全面,并易于更新。
元搜索又叫Multi search engine,他使用他人的搜索网站,然后对信息合并,返回用户。这种搜索引擎没有本地数据库,开发简单,但是信息反馈较慢。
目录搜索是最机械的一种搜索方式,他的数据库是靠专职编辑或志愿人员建立起来的。编辑人员对该站点或文章进行描述或分类,然后将站点的URL和描述放到类别中,当用户搜索时,只在这些描述中搜索。就目前来看,这种方式仍然在使用。一些Blog网站仍然让用户写tag和写描述信息,应该就是分类。
文章提出的信息检索模型分为4个模块,分别为:关键词预处理、特征提取、歧义消解、检索模块。
关键词预处理部分通过分词字典和知识库及相应算法将用户输入的关键词进行切分。这个分词过程异常复杂,有很多种分词算法和模型。分词算法有基于规则的理性方法也有基于统计(语料库)的经验主义方法。
特征提取阶段去掉一些不能作为特征的词,并提取一些有意义的词。
歧义消解阶段找出有意义的词。
检索模块利用分词得到的检索词从文中检索,找出相关度最高的文章。相关度的计算也需要一系列的算法。
 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值