第一章:概论
1,自然语言处理(natural language processing, NLP)/自然语言理解(natural language understanding, NLU)/计算语言学(computational linguistics):(主要用来说明方法,侧重于工程)
2,自然语言处理的目标
实现计算机对自然语言的自动分析和理解,立足于实验、理论、计算三大支柱,通过-以对人脑及语言认知的实现途径进行模拟研究,建立起多层次网络处理模型来阐明人脑语言信息处理系统,以期取得突破性的进展。
3,国外研究现状
- 1954年初,美国乔治敦大学在国际商用机器公司(IBM)的帮助下,在IBM-701上进行了第一次机器翻译试验。(自然语言处理始于机器翻译)。主要技术是模式识别中的句法匹配。
- 20世纪七十年代,开始出现自然语言处理系统(W.woods在1972年设计了自然语言信息检索系统LUNAR,并提出了著名的扩充转移网络(augmented transition network, ATN);T.Winogard在1972年在麻省理工学院人工智能实验室设计了一个自然语言理解系统SHRDLU;R.Schank在1975年在斯坦福大学人工智能实验室建立MARGI系统)。
- 20世纪80年代,各种新的语法体系应运而生。
- 20世纪九十年代,语料库的建立(来自15个英语国家的跨国英语语料库(每个库带有语法标注的词有100万条)、1亿词级的英语国家语料库、2亿 词级 的Birmingham英语语料库、1亿次级的美国计算语言学语料库)。
4,国内研究现状
- 汉语的研究方面:自动分词,汉语电子词典,汉语 机读语料库,机器翻译,汉语人机交互,汉语文献搜索。
- 20世纪80年代中后期,北京大学的《现代汉语语法信息词典》(五万多汉字通用词语)、《信息处理用汉语语义词典》、《现代汉语述语动词机器词典》、清华大学的《汉语语素数据库》。
- 国内自然语言处理的研究课题主要有:自然语言的句法和语义分析、语料库建设和语料库加工技术、基于语料库的语言分析方法、机器翻译系统及其测评方法、文本分析与生成、机用词典、自动文摘、文本校对、文字识别、智能型汉字输入方法、人机交互接口等。
5,自然语言处理从方法论上可以分为两种:
理性主义方法 | 根据一套规则或程序,将自然语言理解为符号结构--可以从结构中符号的意义上推出结构的意义。 由人事先设计好规则集。 强调基于规则的方法 |
经验主义方法 | 统计学的方法和神经网络学习方法。从大量的语言数据中获取语言的结构知识(语料库)。 强调基于学习的方法 |
6,语料库
- 大量真实自然语言文本组成的集合,它集合了语言的集体应用实例,通过利用一定的自动学习算法,主要是概率统计技术,从中获取带有相应概率的语言使用规则。
- 从中获取的知识有:a,词频统计数据(单个词的出现频率及相邻次的同现频率);b,经过词性标注后某一标注串出现的频率;c,词与词之间的联结关系、依存关系。
7,汉语特点
大字符集的语言、形态上的区别少、没有词型变化、句型变化繁多、大量的同形歧义和同音歧义、一词多义。
8,研究表明对于母语是汉语的人来说:日常交流中对汉语的理解主要是依靠语句的意义或词的内容含义,不太注重句法和语法因素。
9,汉语歧义
语音歧义 |
词汇歧义 |
句法歧义 |
语境歧义 |
10,兼类现象
同一形式的词具有两种或两种以上的语法功能类别。
11,可研究课题
目前没有完善的系统来解决语境歧义的问题;如何正确识别和切分专有名词。
12,规则库
语法理论与方法 | 广义短语结构语法、头驱动的短语结构语法、词汇功能语法、功能合一语法、链语法、范畴语法、依存语法、树嫁接语法 |
实质 | 基于语言的用词虽具有很大的灵活性,而语言的语法结构具有相对的稳定性,所以尽管词的分布会随着领域的变化而变化,词类在句子中的分布具有比较普遍的意义,不会像词的分布那样变化明显,词类的这种相对稳定分布特性是规则库建立的有效资源 |
瓶颈问题 | 规则库的爆炸和完善管理 |
第二章:自然语言处理的基本问题
1,语言分析包括:词法、句法、语义、语用、语境分析。
2,自动分词
方法 | 正向最大匹配法、逆向最大匹配法、逐次遍历匹配法、设立切分标志法、最佳匹配法、最小匹配法、最少词数切分法等 |
指标 | 切分速度、切分精度、系统的可维护性 |
关键问题 | 分词的歧义问题;所采用的词典的构造、作用及完备性问题 |
3,歧义产生的情况及解决方法
分类 | 说明 | 解决方法 |
第一类歧义 | 自然语言中的二义性所产生的歧义 | 分词知识处理;人工分词和计算机自动分词结合 |
第二类歧义 | 自动分词产生的特有歧义 | 分词知识处理;联想-回溯法;基于词频统计的方法;邻接约束法;基于数学期望的方法 |
第二类歧义 | 分词词典的大小产生的歧义 | 增加构词知识;增加临时词典 |
(如何建立规模适当、方便性好的机器词典是分词系统的一大难题,也是影响分词速度的一个主要原因)
4,自动标注
意义 | 给后继处理提供词汇的语法层信息;给语料库的高层标注奠定基础;为语言学的研究提供翔实的基础。借助计算机自动识别出输入汉语词语的词性 | |
实现方法 | 采用规则方法 | 根据词性上下文的关系,总结出一系列的规则,在标注时如遇到一词多性,就调用系统所有的规则进行排歧。 缺点是覆盖面有限;规则库的庞大会使其维护起来困难重重 |
采用统计方法 | 借助一个已经标记的熟语料库,标注时先根据语料库计算词性之间的同现概率,然后根据同现概率进行排歧处理。步骤如下: 首先制订词性标记集,人工标注预料中的正确词性;其次统计这些语料,对每个词同现概率及词性概率;根据这些统计数据判定给定句子的每个词的词性 |
5,汉语词的兼类现象
- 形同音不同;
- 同音同型但意义上毫无关系;
- 兼类词;
- 上述情况的组合。
6,划分词性的依据
- 形态标准;
- 意义标准;
- 分布标准。
7,一般标记集的设定分化原则
- 完备性准则;
- 确定性准则;
- 交叉性最小原则;
- 分布性准则。
8,排歧方法及步骤
方法 | 利用词典资源进行排歧;利用语料库进行词义排歧 |
步骤 | 特征获取—>特征选择—>特征加权—>相似度计算 |
9,句法分析
主要功能 | 确定语句是否合乎语法;使句子结构规则化 |
主要方法 | 短语结构语法、转换语法、链语法、扩充转移网络、基于合一的语法、广义的LR(left to right)算法等 |
汉语语法特征 | 字与字之间没有空格;一个词在不同的上下文中具有不同的语法功能;没有形态变化;构词规则可由很多不同的句法类型来实现;线性词序相对自由任意;多义词广泛存在;基本没有词性标注 |
10,语料库处理
- 语料库是经过分词(语言信息处理的基础)、词性标注(给句子中的词标注合理的语法类别)、句法标注(标注出句子的句法结构树【库树】)、语义标注、语用标注、篇章标注等各种标注从而成为各个层次上的语言知识库。
- 语料库语言学成为热门课题的原因:
- 计算机发展迅速,使得大量文本的获取和处理成为可能;
- 计算机上已经存储了大量文本,可以轻松获取原始语料;
- 基于规则的自认语言处理存在大量的缺点:缺乏客观的优先权尺度,难于处理不确定性;难于处理复杂的、不规则的知识;知识库的一致性难以维护;系统不易达到对真实文本的高度覆盖;没有系统的自动的方法来大规模的获取规则。
- 稀疏数据问题及平滑处理问题
稀疏数据问题 当语料库的规模尚不是足够大的条件下,大多数词或邻接词的搭配在预料中出现的次数都很少,甚至根本不出现,这就形成了数据稀疏现象,造成知识短缺 平滑处理问题 在训练数据不充分的条件下,采用某种方式对统计结果及概率评估进行必要的调整和修补(Back-off方法,删除插值法)
11,获取知识的两个方面:
按知识源的不同可以分为:
- 从现存词典中获取的内在限制:定义形成回路;就所提供信息的质量和数量来说,定义是不一致的;词典信息主要是依靠若干专家内省来完成的概念化结果。
- 从语料库中获取的知识主要包括以下几个方面:统计数据;词与词之间的联结关系;建立词典。
第三章:汉语句型分析与分布统计
1,语言统计
利用计算机来研究语言成分出现的频率和概率,从而揭示语言的某些统计规律。(语言统计包括:字频统计、词频统计、句型统计)
2,句型分析器
一种语言中无限的句子遵循有限个“句子格式”(难点就在于句型分析器的实现)
3,确定句型成分的方案
第一种方案 | 主谓宾作为句型成分,定状补不作为句型成分 |
第二种方案 | 主谓宾补作为句型成分,定状不作为 |
第三种方案 | 主谓宾补作为句型成分,状语在某些情况下作为句型成分,定语不作为 |
第四种方案 | 主谓宾定状补都作为句型成分 |
4,句型成分分析
一般格式 | 主语和状语都在谓语的前面,宾语和补语在谓语的后面 |
句型成分 | 质成分(主谓) |
一般成分(宾补状 |
主语 | 表示谓语陈述的对象 |
状语 | 修饰,限制谓语的成分 |
宾语 | 动词谓语涉及的对象 |
补语 | 补充说明谓语的成分 |
句型成分分析 | 以识别句型为目的 |
句法成分分析 | 识别句子的各个句法成分以及它们之间的相互关系,以达到分析句子的目的 |
5,标点符号
分类 | 定义 | 标点符号 |
标号 | 标明词语的性质和作用 | (): ‘’ “” () …… —— 《》 <> - .(着重号) .(间隔号) |
点号 | 点断语句、表示结果关系和句子的语气 | 。 ? ! , 、 : ; |
第四章:文本自动分类与检索
1,自动分类
根据文档的内容和属性,将大量的文档规划到一个或多个类别的过程。自动分类又分为自动聚类和自动归类:
自动聚类 | 从待分类对象中提出特征,将全部的特征进行比较,再根据一定的原则将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等 | 聚类时间、次序独立性、重叠度 | |
自动归类 | 分析被分类对象的特征,和是先定义好的各种类别中的对象的特征进行比较,然后将对象化为最近接的一类中并赋予相应的分类号 | 基于知识库 | 依赖于一个主题内容明确的规范知识库 |
基于归纳学习 | 通过已知类别的训练集构造或归纳出分类函数或分类模型 |
2,信息检索
将信息按一定的方式组织和存储起来,并根据信息用户的需要找出相关的信息。信息检索可分为:文献检索和数据检索。
3,信息检索的功能模块及常用模型
功能模块 | 信息与处理模块 |
查询模块 | |
查询反馈模块 | |
常用模型 | 布尔逻辑模型 |
模糊逻辑模型 | |
矢量空间模型 | |
概率模型 |
4,自动分类流程图
5,信息检索流程
6,常用的信息分类和检索模型
信息分类模型 | 基于规则的模型;基于向量的模型(向量空间模型、支持向量机);基于概率的模型;基于统计的模型(KNN);基于向量空间表示的模糊分类方法 |
信息检索模型 | 布尔模型(基于特征项存在与否的严格匹配模型);概率模型(基于概率排序原则);向量空间模型;扩展布尔模型;模糊集模型 |
7,粗集理论
定义 | 一种分析不确定、不完备知识的集合理论,其研究对象是由多值属性描述的知识系统 |
解决的问题 | 解决自动分类模型存在的问题(文档向量) |
8,自然语言处理通用模块的设计与实现
- 规范化处理模块:
(1)将HTML文件中的图片和无关标签去掉,将对文件分析有用的标题、段落标记用特征符号替换;
(2)将各行缩进统一转换成如下几种格式:超缩进(标题、居中的引文)、4字符(段首)、无缩进(普通行)、8字符(引文段首)和12字符(引文正文);
(3)去掉多余的空行。
- 自动分词:
采用基于双向最大匹配法,在正向匹配和逆向匹配不相同时,使用最小切分原则进行确定。如果最小切分原则仍不能确定词的切分(即存在切分数目相同的歧义切分),则利用频率消除歧义。
- 词性标注:
使用基于语料库的统计方法,借助一个已经标记好的熟语料库,计算同现概率并计较。
- 频率统计模块:
词频、特征项频率(TF)、反文档频率。
第五章:文本自动文摘
1,自动文摘
利用计算机自动的从自然语言形式的电子文档中提取出能够覆盖或索引原文核心意思的重要内容,并生成一篇简介连贯的文摘。
2,自动文摘特性
概括性、客观性、可理解性、可读性。
3,自动文摘类型
提示性文摘 | 点出文中的新理论、新方法等 |
信息性文摘 | 尽可能多的定量或定性信息 |
结构性文摘 | 填入摘引词句 |
机械抽取文摘 | (20世纪50年代末到70年代初)以文章中词的出现频率和词、句子在文章中的位置等表面形式特征为基础,直接抽取原文中的句子组成摘要的文摘方法 |
理解生成文摘 | (20世纪70年代中期到80年代末)以人工智能和自然语言理解技术为基础,利用语言学知识获取语言结构,利用领域知识进行判断、推理,得到文摘的意义表示作为中间形式,将这种表示作为自然语言生成器的输入,从意义表示生成文摘 |
基于结构的自动文摘 | (20世纪90年代)分析文章结构有助于把握文章的核心 |
第六章:中文文本的自动校对
自动校对
定义 | 计算机根据语言本身包含的信息对自然语言电子文本自动地进行分析,发现、标示并改正错误的过程 | |
特点 | 没有原稿(根据语言本身的规律来检查和纠错) | |
依据的信息有限(仅仅是系统中保留的词法、语法等语言学信息) | ||
处理的对象特殊(对象是错误的文本) | ||
容错性要求高(对语言中的异常进行分析研究,总结出其内在规律由计算机进行处理) | ||
涵盖范围大(需要对文本进行词级,语法级等分析) | ||
技术应用领域 | 文字识别、文本编辑、人机接口、辅助教学系统 |