【CIPS 2016】(1-3章)词法、句法、语义、语篇分析(研究进展、现状&趋势)

本文链接：https://blog.csdn.net/qq_22170967/article/details/121024357

CIPS 2016 笔记整理

《中文信息处理发展报告（2016）》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理，官方定位是深度科普，旨在向政府、企业、媒体等对中文信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向，向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告（2016）》做的笔记知识整理，方便日后查看。

注意：本笔记不涉及任何代码以及原理分析研究探讨，主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解，方便以后更加深入的研究。

ps：我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中，有需要的可以自行查看：

https://github.com/changliang5811/CIPS-2016.git

前言

当前已经进入以互联网、大数据和深度学习为标志的海量信息时代，互联网和机器学习技术的快速发展对中文信息处理提出了许多新的挑战。

从实现快速计算、记忆与存储的“计算智能”，到识别处理语音、图像、视频的“感知智能”，再到实现思考、理解、推理和解释的“认知智能”，新一代人工智能技术也正在从“感知智能”向“认知智能”迈进。自然语言处理中的自然语言句子级分析技术，可以大致分为词法分析、句法分析、语义分析三个层面。因此对NLP中词法、句法、语义、语篇分析的研究进展、现状以及发展趋势有一个大概的了解至关重要。

自然语言处理

词法分析

汉语分词

主要分词方法
- 基于词典的最大匹配分词方法
  - 缺点是严重依赖词典，无法很好地处理分词歧义和未登录词。
  - 优点：由于这种方法简单、速度快、且分词效果基本可以满足需求，因此在工业界仍然很受欢迎。
- 全切分路径选择方法
  - 其思想是所有可能的切分表示为一个有向无环图，每一个可能的切分词语作为图中的一个节点。有向图中任何一个从起点到终点的路径构成一个句子的词语切分，路径数目随着句子的长度指数增长。
  - 目的：从指数级搜索空间中求解出一条最优路径。
- 基于字序列标注的方法
  （分词主流方法）
  - 对句子中的每个字进行标记，如四符号标记{B，I, E, S}，分别表示当前字是一个字的开始、中间、结尾，以及独立成词。
- 基于转移的分词方法
  - 借鉴了基于转移的依存句法分析的思路，从左到右扫描句子中的每一个字，将分词过程转化为一个动作{append, separate}序列，使用柱搜索获得最优动作序列
  - 优点：可以更灵活的融入各种特征，特别是基于词的特征
主要研究进展
- 有效的特征集合
  - 已经形成了一套有效稳定的特征集合，如 n 元字串、字的类别、叠字现象、偏旁部首作为形态信息等等。
- 基于词典的特征
  
  分词过程中，可以把“当前字开始的三个字构成的字串是否在词典中出现”这样的信息作为特征，加入到统计模型中，这种信息称为基于词典的特征。
  - 实际上是将基于词典的规则系统和基于统计的分词方法进行了软融合
  - 在处理跨领域文本时，如果有比较好的领域词典，基于词典的特征可以显著提高分词准确率
- 基于无标注数据的半指导特征
  - 类似于半监督聚类学习
- 基于自然标注数据的学习方法
  
  网页源文本中包含了大量的 html 标记，指定了网页中的角色、超链接、显示位置或显示格式，而这些标记无形中也隐含了分词边界信息。研究者们将这种隐含的分词边界信息称为自然标注
- 基于异构标注数据的学习方法
  
  汉语数据目前存在多个人工标注数据，然而不同数据遵守不同的标注规范，因此称为多源异构数据。近年来，学者们就如何利用多源异构数据提高模型准确率，提出了很多有效的方法，如基于指导特征的方法、基于部分词（subword）的方法、基于成对序列标注的方法。
- 基于深度学习的分词方法
- 词法句法一体化建模
  - 直接从字开始对句子进行分析，输出分词、词性、句法的结果
- 国际公开评测任务
- 分词开源软件开放
  
  中科院计算所的 ICTLAS 分词系统、哈工大语言技术平台 LTP、清华大学自然语言处理工具包、海量云分词
主要挑战
- 分词歧义消解
- 未登录词（新词）识别
- 错别字、谐音字规范化
- 分词粒度问题
  - 也就是个人或语料对词的切分方式不同

词性标注

词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型，然后是判别式的最大熵模型、支持向量机模型，目前学术界通常采用结构感知器模型和条件随机场模型。近年来，随着深度学习技术的发展，研究者们也提出了很多有效的基于深层神经网络的词性标注方法。

主要进展
- 词性标注和句法分析联合建模
  
  词性标注和句法分析紧密相关，词性标注和句法分析联合建模可以同时显著提高两个任务准确率
- 异构数据融合
  - 基于指导特征的方法、基于双序列标注的方法、以及基于神经网络共享表示的方法
- 基于深度学习的方法
  - 优点：初始词向量输入本身已经刻画了词语之间的相似度信息，这对词性标注非常重要

目的：将输入句子从字序列转化成词和词性序列

面临问题

用来描述生词和构词法的模型是非常重要的
分词歧义问题（有多种切法，需要联系上下文）
词性定义和词性兼类问题

句法分析

目的：得到句子的语法结构。输入句子从词序列形式转化成树状结构，从而刻画句子的词法和句法结构

短语结构句法分析

（成分句法分析）

基于上下文无关文法（Context Free Grammar，CFG）

上下文无关文法可以定义为四元组<T, N, S, R>，其中 T 表示终结符的集合（即词的集合），N 表示非终结符的集合（即文法标注和词性标记的集合），S 表示充当句法树根节点的特殊非终结符，而 R 表示文法规则的集合，其中每条文法规则可以表示为 N i -->r，这里的 r表示由非终结符与终结符组成的一个序列（允许为空）
- 终结符的集合（即词的集合），非终结符的集合（即文法标注和词性标记的集合）
作用：识别句子中的短语结构以及短语之间的层次句法关系
介于依存句法分析和深层文法句法分析之间
句法分析器
- 人工书写规则
- 从数据中自动学习规则（主流）
为了在句法分析中引入统计信息，需要将上下文无关文法扩展成为概率上下文无关文法（Probabilistic Context Free Grammar，PCFG），即为每条文法规则指定概率值

缺点：上下规则左侧的非终结符有关，而与任何其它上下文信息无关。应弱化上下文无关文法中的隐含独立性假设
研究方向：弱化上下文无关文法中的隐含独立性假设
- 改进思路
  - 词汇化
    
    在上下文无关文法规则中引入词汇的信息
  - 符号重标记
    
    通过对非终结符的改写（细化或者泛化）而引入更多的上下文信息

依存句法分析

基本假设：依存语法存在一个共同的基本假设：句法结构本质上包含词和词之间的依存（修饰）关系。
- 一个依存关系连接两个词，分别是核心词（head）和依存词（dependent）
作用：识别句子中的词汇之间的相互依存关系
浅层句法分析
- 实现相对简单
- 所提供的信息相对较少
依存句法分析的形式化目标是针对给定输入句子x = w 0 w 1 … w i … w n ，寻找分值（或概率）最大的依存树
数据驱动的依存句法分析方法

在训练实例集合上学习得到依存句法分析器，而不涉及依存语法理论的研究
- 基于图（graph-based）的分析方法
  - 寻找最大生成树的问题
  - 可以简单区分为一阶和高阶模型
    
    高阶模型可以使用更加复杂的子树特征，因此分析准确率更高，但是解码算法的效率也会下降
  - 通常采用DP的解码算法
    
    通常采用基于动态规划的解码算法，也有一些学者采用柱搜索 (be search)来提高效率。学习特征权重时，通常采用在线训练算法，如平均感知器（averaged perceptron）。
- 基于转移（transition-based）的分析方法
  
  特征表示方面，基于转移的方法可以充分利用已形成的子树信息，从而形成丰富的特征，以指导模型决策下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似，基于转移的方法通常也采用在线训练算法学习特征权重。
  - 将依存树的构成过程建模为一个动作序列
  - 将依存分析问题转化为寻找最优动作序列的问题
  - 流行：全局线性模型来决定下一个动作，一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。
- 多模型融合的依存句法分析方法
  - 基于图的模型进行全局搜索但只能利用有限的子树特征，而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。
  - stacked learning；对多个模型的结果加权后重新解码(re-parsing)；从训练语料中多次抽样训练多个模型(bagging)

深层文法句法分析

利用深层文法对句子进行深层的句法以及语义分析
深层文法
- 词汇化树邻接文法（LTAG）
- 词汇功能文法（LFG）
- 组合范畴文法（CCG）
可提供相对丰富的句法和语义信息
缺点：采用的文本相对复杂，分析器的运行复杂度较高，不适合处理大规模数据

面临问题

模型定义问题：如何为各候选句法树打分。
特征表示问题：如何表示句法树（ML该用什么特征去学习）
解码问题：如何寻找概率（或分值）最高的句法树。
- 在给定所有子树的分值后，通过组合可以得到数目众多的不同分值树，搜索空间较大，无法通过简单比较得到分值最高的结果。本项内容是研究如何设计有效算法高效地搜索到分值最高的句法树。
训练算法问题：如何训练获取特征权重
（如何使用机器学习模型来有效的学习特征权重。）

基于DL的句法分析

把原子特征进行向量化，在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示，从而便于寻找特征组合与表示，同时容易进行计算

技术展望&发展趋势

（词法&句法分析）

深度学习和传统方法相结合的问题
多粒度分词
面向非规范文本的分词
分词、新词发现（词语归一化）交互建模
面向非规范文本的词性标注
词性标注的数据标注问题
互联网文本分析和领域自适应问题

语义分析

目的：理解句子表达的真实语义

语义角色标注（目前较为成熟的浅层语义分析技术）

基于逻辑表达的语义分析也得到了学术界的长期关注

根据理解对象的语言单位不同

词汇级语义分析

主要体现在如何理解某个词汇的含义
- 词义消歧
  - 关键问题：（1）词典的构建；（2）上下文的建模
  - 技术方法&研究现状
    - 基于词典的词义消歧（消歧性能不高）
    - 有监督词义消歧
      
      使用词义标注语料来建立消歧模型，研究的重点在于特征的表示。
      - 词汇特征通常指待消解词上下窗口内出现的词其词性
      - 句法特征利用待消解词在上下文中的句法关系特征
      - 语义特征在句法关系的基础上添加了语义类信息
      - 基于深度学习方法的词义消歧成为这一领域的一大热点
        
        深度学习算法自动的提取分类需要的低层次或者高层次特征，避免了很多特征工程方面的工作量
    - 无监督和半监督词义消歧
      - 克服对大规模语料的需要，半监督或无监督方法仅需要少量或不需要人工标注语料。
- 词义表示和学习
  
  如何表示并学习一个词的语义，以便计算机能够有效地计算两个词之间的相似度
  - Word Embedding
句子级语义分析
- 浅层语义分析
  - 方式：主要围绕着句子中的谓词，为每个谓词找到相应的语义角色
  - 语义角色标注(Semantic Role Labeling,简称 SRL)
    - 任务是找出句子中谓词的相应语义角色成分
      
      包括核心语义角色（如施事者、受事者等）和附属语义角色（如地点、时间、方式、原因等）
    - 根据谓词类别的不同，又可以将现有的 SRL 分为动词性谓词 SRL 和名词性谓词 SRL
    - 技术方法&研究现状
      - 研究热点包括基于成分句法树的语义角色标注和基于依存句法树的语义角色标注
        
        角色剪枝、角色识别、角色分类
        
        研究热点是如何构建角色识别和角色分类分类器
        
        例如基于特征向量的方法和基于树核的方法
        
        基于特征向量的方法将结构化信息转化为平面信息，方法简单有效；缺点是在制定特征模板的同时，丢弃了一些结构化信息。同样，基于树核的方法有效解决了特征维数过大的问题，缺点是在利用结构化信息的同时会包含噪音信息，另外计算开销远大于基于特征向量的方法。
        
        基于特征向量的方法中，最具有代表性的 7 个特征
        
        成分类型
        谓语子类框架
        成分与谓词之间的路径
        成分与谓词的位置关系
        谓词语态
        成分中心词
        谓词本身
        后续研究也提出了其他有效的特征
        
        核函数的方法挖掘隐藏于以句法结构中的特征
        
        利用核函数 PAK（Predicate/Argument Structure Kernel）来抓取谓词与角成分之间的各种结构化信息
        相关研究提出了一种基于语法驱动的卷积树核用于语义角色标注
        
        目的：尽可能准确地计算两个对象之间的相似度
  - 通常都是基于句法分析结果
    - 缺点：使得 SRL 的性能严重依赖于句法分析的结果
    - 减轻 SRL 性能对句法分析性能的依赖是 SRL 研究的一个关键问题
  - 名词性谓词 SRL 的性能要低于动词性谓词 SRL
    - 名词性谓词的标注实例数仍远小于动词性谓词
    - 名词性谓词的角色识别更加困难
      
      即使某个名词为动词的派生词，并不是该名词的所有修饰成分都将被标注为该名词的语义角色
    - 名词性谓词与其角色之间的结构更加灵活与复杂
    - 名词性谓词的识别远远要比动词性谓词的识别困难
  - 关键研究问题：提高名词性谓词 SRL 性能
- 深层语义分析
  （有时直接称为语义分析,Semantic Parsing）
  - 不再以谓词为中心，而是将整个句子转化为某种形式化表示
    
    例如：谓词逻辑表达式（包括 lambda 演算表达式）、基于依存的组合式语义表达式（ dependency-based compositional semantic representation）等
  - 语义分析通常需要知识库的支持，在该知识库中，预先定义了一序列的实体、属性以及实体之间的关系
  - 面临关键问题
    - 普通文本到实体/关系谓词之间的映射
      - 原因：自然语言表达形式的丰富多样性
    - 面向开放领域的语义分析
      - 探索基于半监督或无监督的语义分析研究
  - 技术方法&研究现状
    - 基于知识库的语义分析
    - 有监督语义分析
      - 同步上下文无关文法（Synchronous Context-Free Grammar，简称 SCFG）和 CCG 文法（Combinatory Categorical Grammar）
    - 半监督或无监督语义分析
篇章级语义分析
- 目的：旨在分析出其中的层次结构和语义关系（篇章结构）
  
  给定一段文本，其任务是自动识别出该文本中的所有篇章结构，其中每个篇章结构由连接词，两个相应的论元，以及篇章关系类别构成
- 篇章结构分类
  - 显式篇章关系
    - 连接词存在于文本中
    - 连接词为判断篇章关系类别提供了重要依据，关系识别准确率较高
  - 隐式篇章关系
    - 连接词不存在于文本中，但可以根据上下文语境推导出合适的连接词
    - 关系类别判定较为困难，是以后的研究重点以及难点
- 技术方法&研究现状
  - 基于 Penn Discourse TreeBank 的篇章分析
    - PDTB是作为最大的篇章语料库
    - 步骤
      - 篇章连接词识别
        
        确定文本中的连接词
        连接词识别的任务相对较简单，所取得的性能已达到实用阶段，通常它并不是篇章分析的研究重点
      - 论元（Argument）识别
        
        在文本中识别连接词的两人个论元 (Arg1 和 Arg2)，即识别它们的跨度
        把连接词看作是语义角色标注中的谓词
      - 显式篇章关系识别
        
        显式篇章关系的识别任务相对较简单，不是篇章分析研究的重点
      - 隐式篇章关系识别
        
        基于 PDTB，隐式篇章关系识别的准确率只有 45%左右，远低于显式篇章关系识别性能，是目前篇章分析的一个研究重点和难点
  - 基于 RST 的篇章分析
    - 篇章基本单元 (Element Discourse Unit, 简称 EDU) 识别
      - 对给定句子，识别哪些为 EDU
    - 篇章结构生成，即对每一个过程的输出采用自底向上方法，为功能子句对确定一个最可能的修辞关系
      - 在识别 EDU 的基础上，篇章结构生成任务包括识别 EDU 之间的关系，形成篇章树
  - 中文篇章分析
    - 基于 RST 体系的标注
      - 英文 RST 的很多篇章关系无法在中文中找到与之对应的关系
    - 基于 PDTB 体系的标注
      - 由于中文中连接词大量缺省，PDTB标注体系表现出很大不适应
      - HIT-CDTB参照了英文 PDTB 的标注体系。
    - 基于连接依存树的标注
      - 基于连接依存树的的中文篇章分析语料基于连接依存树的中文篇章结构表示体系的中文篇章分析语料（Chinese Discourse TreeBank，CDTB）
        
        借鉴了 RST 和 PDTB 体系优点，并结合中文的特点
        自顶向下的标注策略
    - 基于中文篇章语料的篇章分析研究不多

技术展望&发展趋势

短语/句嵌入的学习
基于句子级语义分析的篇章融合
中文篇章分析
非规范文本的语义分析

级联方式

即分词、词性标注、句法分析、语义分析分别训练模型

原因：出于ML的复杂度、效率的考虑

联合模型

将多个任务联合学习和解码
方法
- 分词词性联合
- 词性句法联合
- 分词词性句法联合
- 句法语义联合
优点：可显著提高分析质量
- 可以让相互关联的多个任务互相帮助
- 对于任何单任务而言，人工标注的信息也更多
缺点：复杂度更高、速度也更慢

目前主要研究数据驱动的分析方法

在人工标注的分词、词性语料和树库上自动训练构建词法和句法分析系统。优势在于给定训练数据，不需要太多的人工干预，就能得到最终的系统

语篇分析研究进展、现状&趋势

又称话语分析或篇章分析

语篇分析

包括衔接性和连贯性两个方面

衔接性通过词汇（或短语）之间的关系来表示上下文的关联
连贯性则通过句子或者句群之间的关系表示关联。

对“语篇”整体进行的分析，包括语篇基本单元之间的关系，不同语篇单元的成份间关联以及语篇所含的信息等

由一个以上的句子（sentence）或语段（utterance）构成的。一篇文章、一段会话等都可以看成语篇。构成语篇的句子（或语段）彼此之间在形式上相互衔接，在意义上前后连贯

语篇的衔接关系分析

主要是分析词汇（或短语）之间的语义关联

如果是词义，还需要进行词义消歧和词义的相似性或相关性计算
如果是指称义，则要进行同指或指代的消解。

技术方法&研究现状

篇章性、连贯性与衔接性理论
语篇结构分析技术
- 发展很大程度上得益于两个有代表性的语篇关系库：宾州语篇树库（Penn Discourse Treebank，PDTB）和 RST 树库（Rhetorical Structure Theory-Discourse Treebank，RST-DT）。
- RST 树结构分析
  - 关联性强的单元先通过修辞关系进行组合，形成大的语篇单元，大的语篇单元再形成更大的语篇单元，直至形成一棵覆盖语篇所有单元的树。
- 依存结构树分析
  - 结果也是一颗树，但和 RST 树不同，句子之间直接建立依存关系，不再含有中间节点。
    
    语篇依存结构的单元之间以非对称的二元依存关系连接。其中，称依靠单元为“从属单元”（subordinate），称被依靠的单元为“中心单元”（head）。利用语篇依存树表示依存结构时，需要在依存树起始位置插入一个人工单元，称之为 e0，并视之为该语篇的根（Root），以此简化定义与计算过程。
  - 可借鉴句法依存分析技术
- 隐含语篇关系分析
  - 采用有监督学习的思路
  - 由于标注语料的不足，半监督的方法也开始用于隐式关系的识别
指代消解技术
- 语篇衔接性
  （从词汇层面分析语篇内的概念关系）
  - 指代关系、省略关系、替换关系和词汇衔接性
    
    词汇衔接又表现为词汇重复、同义或近义、反义、上下位义、整体与部分以及搭配六种。具有衔接关系的词可以通过一个链表示，称为词汇链。
- 词汇链
  - 具有衔接关系的词可以通过一个链表示，称为词汇链。
- 指代或同指关系是构建词汇链的一个重要内容。如果两个词或短语具有同指关系，那么它们应该属于同一词汇链。
  - 所谓同指，是指两个名词之间，或者名词与代词之间具有相同的指称语义（referent）。同指关系是等价关系。
  - 指代是指由一个代词来表示上下文中某个名词或名词短语所指示的实体或实体的某个部分
  - 语篇中第一次指示实体的名词或名词短语称为先行语（antecedent），先行语通常会先于代词出现，此时的指代关系也称为回指（anaphora）
  - 在有些情况下，也可能先出现代词，后出现先行语，此时的指代关系则称为预指（cataphoric reference）。
- ML：，机器学习方法仍然是主流。基本思想是将每个指称语表示为特征（组合），再根据特征组合判断指称语之间是否具有同指（或等价）关系
汉语还有一个非常突出的问题是 0-指代问题。相比西方语系讲究句子结构的完整性，汉语则更加追求经济性或简洁性，即能省则省，其结果会导致大量的 0-形式