全文检索概念——它存在的意义
网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报收集、分类、检索等工作带来了新的问题和挑战。
如何充分利用Internet上的信息资源?
全文信息检索就是根据Internet 信息的特点而发展起来的一种检索方式。它主要是指研究对整个文档信息的表示、存储、组织和防伪,即根据用户的查询请求,从信息数据库中检索出相关信息资料。
全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅可以将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得令用户满意的检索输出。
信息预处理过程——信息检索前的基本操作
主要功能:过滤文件系统信息,为文件系统的表达提供一种令人满意的索引输出。
基本目的:为了获取最优的索引记录,使用户能很容易地检索到所需信息。
- 格式过滤。信息预处理应能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,还能检索原始格式文件的所有信息。
- 语词切分。
- 语法分析。汉语语词切分中存在切分歧义,因此需要利用上下文知识解决语词切分歧义。此外,还需要对语词进行语词分析,识别各个词语的词干,以根据词干建立信息索引。
- 词性标注和短语识别。
- 自动标引。
- 自动分类。