篇章分析
概述
- NLP处理单位
- 字——编码、输入法
- 词、短语——形态分析、汉语分词、词性标注、词义消歧、NER
- 句子——句法分析、语块分析、语义角色标注
- 篇章——机器翻译、篇章推理、问答系统、自动摘要、情感分类
- 现有有关篇章的分析任务都是基于句子的,因此性能很差
篇章表示理论
- 词汇链:一组由类似含义的相同词汇连接起来的句子
- 事件链:一组由动词即相关实体连接起来的句子——三元组
- 抽取实体词汇链
- 抽取词汇链上最近的谓词——论元,构成事件链
- 判断相邻事件之间的关系
- 话题链:一组以名词回指、代词回指、零型回指形式的话题连接起来的句子
- 回指:一个词或短语在语篇中用于指代同一语篇中的另一词或短语的概念
- 关联词可以用于描述逻辑关系
- 修辞结构理论RST
- 语篇由各个具有重要功能的部分构成,较小的部分按照一定的关系模式组成更大的部分,直至成篇
- 一段文字要被确认为语篇,各部分要有机地结合,形成整体性和连贯性——内在功能——中心目的
- 语篇构成:两个基本部分组成一个较大的部分,不但组成,直到称为语篇——层次化结构
- 语篇结构
- 类型结构:语篇的题材或类型特征,相对固定
- 句法结构
- 关系结构:同一性,不因结构层级改变而不同——主要结构
- 不对称性在关系结构中占主导地位——核心-辅助关系
- 各种关系:P15
- 汉英篇章树库 CDTB vs. PDTB
- 汉语隐式关系更多
- 其他理论:P20
篇章关系分析
- 基本任务:篇章——一组关系
- 显式关系或者隐式关系
- 两个篇章论元机器之间的关系
- 三大任务
- 关联词识别
- Arg抽取
- Arg1和Arg2之间的篇章功能类型判断
- 有时arg称为基本篇章单元
- 基本分析流程
- 锚词识别——列出候选(标签、词典),识别
- 论元抽取——抽取锚词对应的论元对
- 论元关系分类——预测两个抡元之间的关系
- 论元标注——最终确定并标注论元关系
- 锚词识别
- 显式关系:关联词表
- 隐式关系:标点符号
- 句中MOS
- 句末EOS
- 识别特征P27
- 论元抽取
- 观察
- Arg1和Arg2通常在一个句子里,或则邻近两句
- 一个论元由一个或几个连续的句子组成
- 显式的Arg2与关联锚词在同一个句子中
- 大多数情况下,Arg1和Arg2的跨度范围是邻近的,之间没有其他子句
- 扩展种子论元对
- 确定句子范围
- 显式:由Arg1位置决定
- 隐式:由锚点位置决定(MOS / EOS)
- 生成种子论元对
- 显式
- SS(同句论元对),那么Arg2可能在左侧,也可能在右侧,需要一个分类器
- PS(异句论元对),当前有连接词的子句与前面一个子句构成论元对
- 隐式:标点左右两个句子
- 显式
- 扩展种子
- 方向:向左 / 向右
- 逐子句考察
- 选择最长的边界
- 通过分类器确定扩展范围
- 确定句子范围
- 观察
- 关系类型识别:分类
- 论元标注:分类
- 确定Arg1和Arg2孰前孰后
- 错误分析
- 组合关联词识别错误
- 关联词在剧中的情形不好判断
篇章分析应用
- 机器翻译
- RS-tree-to-String 统计翻译模型
- 由论元关系考察是否调整句子顺序(不同语言的关系呈现不同)
- 融合篇章结构的神经机器翻译
- 位置编码
- RS-tree-to-String 统计翻译模型