web全文检索技术概要

全文检索概念——它存在的意义

网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报收集、分类、检索等工作带来了新的问题和挑战。

如何充分利用Internet上的信息资源?

全文信息检索就是根据Internet 信息的特点而发展起来的一种检索方式。它主要是指研究对整个文档信息的表示存储组织防伪,即根据用户的查询请求,从信息数据库中检索出相关信息资料。

全文检索的中心环节文件内容表达信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅可以将输出信息进行相关性排列,还应该能够根据用户的意图兴趣特点自适应智能化地调整匹配机制,获得令用户满意的检索输出。

信息预处理过程——信息检索前的基本操作

主要功能:过滤文件系统信息,为文件系统的表达提供一种令人满意的索引输出。
基本目的:为了获取最优的索引记录,使用户能很容易地检索到所需信息。

  1. 格式过滤。信息预处理应能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,还能检索原始格式文件的所有信息。
  2. 语词切分。
  3. 语法分析。汉语语词切分中存在切分歧义,因此需要利用上下文知识解决语词切分歧义。此外,还需要对语词进行语词分析,识别各个词语的词干,以根据词干建立信息索引。
  4. 词性标注和短语识别。
  5. 自动标引。
  6. 自动分类。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值