UCAS - AI学院 - 自然语言处理专项课 - 第10讲 - 课程笔记

最新推荐文章于 2020-06-02 02:03:11 发布

支锦铭

最新推荐文章于 2020-06-02 02:03:11 发布

阅读量379

点赞数

分类专栏： UCAS-课程笔记文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/cary_leo/article/details/105828830

版权

UCAS-课程笔记专栏收录该内容

37 篇文章 10 订阅

订阅专栏

UCAS - AI学院 - 自然语言处理专项课 - 第10讲 - 课程笔记

篇章分析

篇章分析

概述

NLP处理单位
- 字——编码、输入法
- 词、短语——形态分析、汉语分词、词性标注、词义消歧、NER
- 句子——句法分析、语块分析、语义角色标注
- 篇章——机器翻译、篇章推理、问答系统、自动摘要、情感分类
现有有关篇章的分析任务都是基于句子的，因此性能很差

篇章表示理论

词汇链：一组由类似含义的相同词汇连接起来的句子
事件链：一组由动词即相关实体连接起来的句子——三元组
- 抽取实体词汇链
- 抽取词汇链上最近的谓词——论元，构成事件链
- 判断相邻事件之间的关系
话题链：一组以名词回指、代词回指、零型回指形式的话题连接起来的句子
- 回指：一个词或短语在语篇中用于指代同一语篇中的另一词或短语的概念
- 关联词可以用于描述逻辑关系
修辞结构理论RST
- 语篇由各个具有重要功能的部分构成，较小的部分按照一定的关系模式组成更大的部分，直至成篇
- 一段文字要被确认为语篇，各部分要有机地结合，形成整体性和连贯性——内在功能——中心目的
- 语篇构成：两个基本部分组成一个较大的部分，不但组成，直到称为语篇——层次化结构
- 语篇结构
  - 类型结构：语篇的题材或类型特征，相对固定
  - 句法结构
  - 关系结构：同一性，不因结构层级改变而不同——主要结构
    - 不对称性在关系结构中占主导地位——核心-辅助关系
    - 各种关系：P15
汉英篇章树库 CDTB vs. PDTB
- 汉语隐式关系更多
其他理论：P20

篇章关系分析

基本任务：篇章——一组关系
- 显式关系或者隐式关系
- 两个篇章论元机器之间的关系
- 三大任务
  - 关联词识别
  - Arg抽取
  - Arg1和Arg2之间的篇章功能类型判断
- 有时arg称为基本篇章单元
基本分析流程
- 锚词识别——列出候选（标签、词典），识别
- 论元抽取——抽取锚词对应的论元对
- 论元关系分类——预测两个抡元之间的关系
- 论元标注——最终确定并标注论元关系
锚词识别
- 显式关系：关联词表
- 隐式关系：标点符号
  - 句中MOS
  - 句末EOS
- 识别特征P27
论元抽取
- 观察
  - Arg1和Arg2通常在一个句子里，或则邻近两句
  - 一个论元由一个或几个连续的句子组成
  - 显式的Arg2与关联锚词在同一个句子中
  - 大多数情况下，Arg1和Arg2的跨度范围是邻近的，之间没有其他子句
- 扩展种子论元对
  - 确定句子范围
    - 显式：由Arg1位置决定
    - 隐式：由锚点位置决定（MOS / EOS）
  - 生成种子论元对
    - 显式
      - SS（同句论元对），那么Arg2可能在左侧，也可能在右侧，需要一个分类器
      - PS（异句论元对），当前有连接词的子句与前面一个子句构成论元对
    - 隐式：标点左右两个句子
  - 扩展种子
    - 方向：向左 / 向右
    - 逐子句考察
    - 选择最长的边界
    - 通过分类器确定扩展范围
关系类型识别：分类
论元标注：分类
- 确定Arg1和Arg2孰前孰后
错误分析
- 组合关联词识别错误
- 关联词在剧中的情形不好判断