文章目录
1 自然语言在信息组织中的应用概述
1.1 自然语言的优缺点
优点
- 可以降低标引难度及成本,从而提高标引速度; 采用用户熟悉的自然语言,符合用户检索习惯, 减少了概念转换中产生的失真现象,专指度强;
- 由于自然语言标引检索多采用自动处理方式,省略了编制词表和词汇的智力负担;
- 操作简单方便,灵活,比较适合没有专业知识的 广大网络用户使用等。
缺点
- 由于自然语言对标引用词不加严格控制,必 然会形成非关键性词语的大量出现,影响检 准率的提高;
- 由于不能反映概念词间的一一对应关系,也 不能反映概念关系的隐含性,无法排除同义词(漏检)、近义词、多义词(误检)等词间的模糊现象,势必也会直接影响到检全率的提高。
- 自然语言和受控语言都有各自独特的优点和缺点, 不能简单彼此替代,而应当相互补充、交融。
解决方式:
针对上述自然语言及其检索中存在的这些问题
- —方面要依靠计算机技术和自然语言处理技术的突破发展;
- 另一方面受控语言的基本原理一对词汇的控制, 是永远不会被省略的,变化的只是词汇控制的方式、方法和手段。
1.2 自然语言与自然语言处理
自然语言处理 natural language processing ( NLP ),是实现自然语言理解的核心基础,是语言信息处理的一个重要分支,是自然语言得以应用所要解决的首要的核心问题。
自然语言处理研究内容的基础部分
■语法分析(Syntactic Understanding)
■语义分析(Semantic Understanding)
■语用分析(Pragmatic Understanding)
2 自动分词与自然语言标引
2.1 汉语分词
2.1.1 汉语分词及其障碍概述
汉语属于黏着性语言,较之于属于曲折型语言的西语系 (如英语、法语、德语等)语言,词与词之间缺乏任何 形式上的标志
汉语切分中的难点
- 汉字之间存在着不同的组词方式;
- 从标引的角度分析,交集型的标引词汇难以处理。
- 汉语虚词众多,而且绝大多数汉字当与不同的汉字组词 时,其词可能为关键词,也可能为非用词。
- 新词的频繁出现也给汉语分词增添了难度。
分词歧义的类型
- 交集型歧义
- 组合型歧义
切分歧义的解决策略
- 汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧 义(约占全部歧义的85%以上)和组合型歧义。只有向分词系统提供进一歩的语法,语义知识才有可能作出正确的决策
- 切除歧义常常用词频、词长、词间关系等信息
- 有时切分歧义发生在一小段文字中,但为了排除歧义,需要 看较长的一段文字。
2.1.2 汉语分词方法
基于词典匹配的分词方法
又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个 "充分大的"机器词典中的词条进行配,若在词典中找到某个字符 串,则匹配成功(识别出一个词)。
基于理解的分词方法
就是在分词的同时进行句法、语义分析,利用句法信息和语义 信息来处理歧义现象。
基于统计的分词方法
可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的同现信息 ,同现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
2.2 自然语言标引
自然语言标引是指采用原文中的信息作为标引源, 从中选取能够有效表征信息内容的特征词的过程。
2.2.1 自由标引
即人工关键词标引。是指将那些出现在文献的标题(篇名、 章节名)以及摘要、正文中,对表征文献主题内容具有实质 意义的语词,亦即对揭示和描述文献主题内容来说是重要的 、带关键性的(可以作为检索入口的)那些语词抽取,抽取 时不加规范或只做少量规范化处理。
自由标引主要适用于报纸文献、期刊文献的大型篇 名数据库等的标引。
自由标引的优点
- 由于不使用词表控制,标引速度要比使用词表的主题标引快许多倍,这还意味着标引成本的降低;
- 可用与文献主题专指度一致的词进行标引,保证较高的检准率;
- 标引过程是标引人员进行主题分析的过程,如果标引人员具有一定的业务水平,则其标引质量可大大高于自动抽词标引。
2.2.2 自动标引
又称计算机辅助标引(Computer Aided Indexing ),是根 据文献内容,依靠计算机系统全部或部分地自动给出标引符 号的过程。
自动标引的意义
- 适应信息资源快速增长的需要
- 相对手工标引存在很大优势,克服了手工标引难以克服的缺点。
- 自动标引一致性好
- 自动标引不受标引人员状态和情绪的影响,稳定性好。
自动标引的分类
- “狭义”的自动标引包括主题标引的自动抽词标引和自动赋 词标引两种方式。
- ”广义“的自动标引还指在主题自动标引基础上的自动赋分 类号标引。
自动标引
- 自动主题标引
- 自动分类标引
自动主题标引关键在于:
词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。
西文自动标引
(1)文本的词汇分析
(2)非用词的去除
(3)词干提取
(4)索引项的选择
中文自动标引的基本流程
(1)确定标引源
(2)预处理
(3)分词处理
(4)确定关键词
(5)转换为受控词
(6)给出主题标识符
2.2.3 单汉字索引与全文索引
单汉字索引的优点
- 成功地绕过了汉语自动切分这一难题,实现比较容易;
- 自动化的适用程度高
- 单字索引的建立效率很高,
- 对于新兴的概念词也能即时处理,也解决了汉语交集型字符串标引的问题。
- 可以实现全方位、彻底的检索;
- 单汉字检索模式是最彻底的后组配模式,可通过调整检索字的数量来任意调整检索专指度。
- 可用于文献内容的统计、分析和研究。
单汉字索引的缺点
- 将词汇控制负担转嫁给了用户,加重了检索者构造检索策略时的智力负担;
- 基于单汉字的检索只能实现物理字面上的匹配运算,难 于处理文本中的隐含概念主题;
- 单汉字自动标引会使无检索价值的虚词或分辨力很差的常用字在索引中占很大比例;
- 同时在具体实现上还存在不足之处
- 响应时间慢于其他方法;
- 以单汉字为索引单元,导致字频率的跨度很大,索引(倒排)文 档的构造必须要解决好存储空间与检索时间这两个矛盾关系;
- 单字组配检索将会产生许多假组配现象,影响查准率。
3 自然语言检索
3.1 自然语言检索系统概述
自然语言检索系统
就是指对文献作者或文摘提要的编写者原 来使用的语言进行一定的序化组织、处理 并提供自然语言检索接口供用户查询使用的检索系统。
自然语言检索系统的关键性技术:
- 文本信息的自动标引
- 索引技术
- 自然语言检索技术O系统采用的信息标引方式
- 所选取的索引的颗粒度
3.2 自然语言检索
- 从检索语言来讲,自然语言检索就是在为文献检索 标识时,使用文献作者、文摘编写者原来所用的语 词或标引人员自拟的语词,而不是取自受控词表中 的语词;
- 从技术上讲,就是将自然语言处理技术应用于信息 检索系统的信息组织、标引与输岀;
- 从用户方面讲,就是用自然语言作为提问输入的检 索方式。
自然语言检索的类型
■从用户输入检索词形式的角度区分:
- 关键词检索;
- 自然语言语句的提问式输入检索
■从检索内容或检索对象角度区分
- 基于标引字段的检索方式;
- 全文检索方式
3.3 全文检索
所谓全文检索(Full-Text Retrieval ),是指以全部文本信息作为检索对象的一种信息检索技术。 全文检索的核心技术就是维护一个高效的索引(主要是倒排文档)。
全文检索的索引问题
全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。
全文检索系统优缺点
■优点:
- 系统制作效率高 。
- 词汇自然更新 。
- 专指性强
- 查全率高
■缺点:
1. 存贮空间开销大
2. 检索者智力负担重
3. 误检率较高
4. 文本匹配的算法需优化
5. 中文全文检索受汉语切分的
影响
中文索引的三种索引策略:
- 单汉字索引方式
- 词索引方式
- N元语法(N-Gram法)
各种索引方式的优缺点
方法 | 查全率 | 查准率 | 检索速度 | 索引空间 |
---|---|---|---|---|
按字 | 好 | 差 | 海量数据慢 | 浪费 |
按词 | 较差 | 好 | 快 | 较小 |
N- Gram | 较好 | 较差 | 快 | 严重浪费 |
3.4 搜索引擎的自然语言检索问题
(一)搜索引擎的检索理论
一般以词为索引单位,即计算机程序通过扫描每一篇文章中的 每一个词,建立以词为单位的倒排文档,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些 检索词的文档进行排序,最后输出排序的结果。
全文检索技术是搜索引擎的核心支撑技术
(二)搜索引擎的检索技术
■关键词匹配检索
- 布尔逻辑检索
- 词组检索
- 字段限制检索
- 位置检索
- 递进检索
■简单提问式输入检索
问答系统(QA System ) ASK.com模式、 AnswerBus模式
■基于理解的自然语言检索
在尽量避免引入复杂语义过程的前提下,依靠比 较成熟的实验技术与成果(如,中文信息自动分词技术、词表编制技术),基于自然语言基本语义内容实现主题概念检索技术。
自然语言检索系统存在的问题
■易造成主题相关的信息分散;
■词间关系含糊不清或不正确,无法清楚地显示概 念间的关系,易造成检索系统的失误;
■用户难以确定全部的检索用词,加重了用户的负担。
4 后控制检索
4.1 后控制和后控词表
后控:信息检索阶段的控制称为后控制
后控制方法主要有:截词检索、位置逻辑检索、标弓I 词加权和后控制词表。
后控制词表
是利用受控语言的基本原理和方法编制的自然语言检索用词表,它主要是对自然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示,具有自学习功能,可根据检索的需要 将新概念和新术语及时地加入词表中,因此,后控词表是一个动态词表。
4.2 后控词表应用现状
■自动化词表编制管理系统
■机读或网络化词表的应用
后控检索应用中的注意点
-
后控词间关系词表在检索系统中应该以“词族片断“ 的结构形式存放。
-
词间关系词表控制下的查询扩展,一定要注意让用户 根据检索意图(或者说是检索的语义概念)来选择, 通过交互式的术语提示方式来实现控制。
4.3网络检索系统中的后控制技术
1 .检索式的修整、优化
- 停用词典一一检索词有效性控制
- 截词词典一一检索词词形控制
- 词间关系词表——检索式概念控制
2 .检索结果控制
- 按相关度计算来排序检索结果(百分比、星级显示)
- 按检索结果主题内容聚类(聚类技术能经常地帮助用户调整对感兴趣的检索结果的快速定位)
检索结果的联机聚类技术
■ Results-clustering
通过聚类,将检索结果组织成一棵主题导航树,其好
处是你处理的将是一个相对小数量的结果集,而不是
从整个网络上检索到的所有信息,科学地从检索结果
角度优化了检索,减轻了用户负担,使用户以最快的
速度准确定位到满足其检索需求的记录信息。
5 参考资料
《信息组织》第三版 ,戴维民主编, 高等教育出版社,2014年
《信息组织》第七章 PPT