点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要10分钟
跟随小博主,每天进步一丢丢
作者: 龚俊民(昵称: 除夕)
学校: 新南威尔士大学
单位:Vivo AI LAB 算法实习生
方向: 自然语言处理和可解释学习
知乎: https://www.zhihu.com/people/gong-jun-min-74
前言
在所有的 NLP 任务中,有一些任务比较例外。它的输出不属于一个序列,一个类别,或者是多个序列,多个类别,而可能是一个图、或是一棵树,一种数据结构。每个 NLP 任务都有属于自己的领域知识和求解框架。但这里我们主要来说一下共指解析的解决框架和深度学习的做法。
共指解析的目标是要找出文中指代相同的代指。图中的"它"指的是什么呢?它是指拳头,"他"的拳头是谁的拳头呢?指的是钟佳播的全头。如果是一个 QA 模型,它就只会从字面意思去回答问题。把会锤倒高墙的东西变成代词"它",而不是这个"它"实际指代的对象。
共指解析是一个非常重要的问题。有一个叫 winograd 的比赛,希望取代图灵测试。在图灵测试中,AI 可以有太多方法去狡猾地欺骗人类。有一些话术,可以让不聪明的机器伪装成聪明的机器。winograd 是一个 QA 问题。比如它会问,这个奖杯放不进行李箱中,因为它太大了。问:什么太大了?对机器来说,这不是一个容易的问题。再比如,它还会问,这个奖杯放不进行李箱中,因为它太小了。问:什么太小了?要回答这种问题,需要机器对世界知识有一定的理解,才有可能得到正确的答案。
共指解析真正在做的是,通过一些文字片段,去指涉场景中对应的实体。文中那些建立场景理念的词汇,就叫作 mention。我们把两个 mention 找到它们是同一个实体的过程,叫作共指 corefer。我们目标是找出哪些 mention 是共指,哪些 mention 不是共指。对于先出现在共指中的 mention,称之为先行词 antecedent,后出现的则叫作 anaphor,没有共指单独出现的 mention 叫作 singleton。
一个共指解析的任务要做几件事情。一是要把所有的 mention 都标注出来。有时 mention 的定义是比较模糊的。一般我们会有一个语料参照,要把哪些作为 mention,哪些忽略。这些 mention 与 mention 之间,有时候会有边界重叠包含关系。比如他的拳头整体是一个 mention,它又可以是另外一个 mention。这些 mention 要被分成不同的簇类。相同簇的 mention 指代的对象会是同一个。如果是复数要怎么办呢?一般我们会单独作为新的实体簇来划分。它与 NER 不同在。NER 找的实体几乎不存在交叉。
第一步,针对找出 mention 这个问题,我们需要有一个二分类器。它的输入是一串 tokens 序列,输出是这一串 tokens 是不是 mention。Mention Detection 与分割和填槽有一点点不同。这个二分类器,输入是要一整个 span,决定它是不是 mention。之所以要这么做,是因为在做 mention detection 的时候,mention 之间会有互相包含的关系。假如有一个长度为 N 的序列,我们需要找出 N(N-1)/2 的可能 span 组合输入给模型去分类。这是一个有监督学习。监督信息来自于人工标注的 mention 作为正例,和未标注到的 token 作为负例。
第二步,是思考哪些 mention 应该要放在同一个类别簇中。这也是用一个二分类器,输入是两个 mention,输出是这两个 mention 有无共指的关系。如果我们有 K 个 mentions,则两两组合有 K(K-1)/2 次分类。
我们可以把上面两个步骤联合起来,只用一个分类器来端对端地训练。输入分类器的是两个 span,若二者是mention 且共指,则分类器输出 1。反之两个 span 任意一个不是 mention,或不共指,则输出0。它的复杂度为 O(N^4)。当 N 稍微大一点时,算法性能就会受限。
这个模型实际是怎样的呢?输入序列会先丢给预训练语言模型,得到每个 token 的嵌入。接着,我们会通过一个特别的模块专门把 span 提取出来,聚合成一个向量。接下来,我们会有一个 mention detection 的模块,输入一个向量,输出判断它是不是 mention。与此同时,两个 mention 向量还会输入给一个 mention pair 的模块,判断它们是不是共指。最后我们把三个分数直接加起来,作为最终输出。
span extraction 一种常见的做法是,假如一个 span 中有四个 embedding,我们先会把它的开头和结尾取出来,再把四个向量取平均,或把它们两两做自注意力,来做加权平均,得到注意过后的向量。比如湖边小屋,真正决定它是 mention 的词在小屋上。模型通过自动学得在小屋这类词上做更多的关注。从而获得一定的泛化能力,学到海边小屋,街边小屋,森林小屋,都是 mention。
如果我们要用这种端对端的方式训练,怎样把它的运算量变得更小呢?推断的时候,我们可以先做 mention detection,跑 N(N-1)/2 次,找出 K 个 mention。再去用 K 个 mention 两两分类看是不是共指。由于 K << N,后面的分类计算量大大减小了。另一个技巧是限制 span 的长度,比如最多不超过 10 个 tokens。这样复杂度就成了固定的数值。
各式各样抽取词嵌入的方法包括了 GLoVe + LSTM,ELMo 和 BERT。图中,小括号代表一个 mention。颜色越深代表注意的权重越大。模型是能够判断在一段 span 的 tokens 中,最重要的是哪些 token。像 fire 和 blaze 指的是同一个东西。factory 和 building 也指的是同一个东西。不过模型也有些 case 把握的不是很好,比如会把 region 和 area 看成是同一个指代。其中有一些比较难的case,需要模型理解一些常识才能去解。这就不是单纯读这篇文章就可以解决的问题。
共指解析可以怎么应用呢?有一种 Seq2seq 的方法,可以用来考虑聊天机器人容易忽略对话历史的问题。因为对话中很容易出现各种指代。Seq2Seq 的共指解析模型就会把上下文中的代指,解析成其实际指代。就能够让模型更好地考虑上下文历史。
在共指解析中,我们不是真的做聚类,而是把指代相同的放在同一个簇中。但对于全局信息,比如 Lee 指代 Mr. Lee,she 指代 Lee。它们在两两共指的时候是合理的。但三个放在一起就存在矛盾了。因此我们需要考虑簇类的层级关系。目前大部分的共指解析都是有监督的。EMNLP 19 里,有人想出了一种无监督的方法。通过 MASK 代词"他"的方式,让模型去预测这个"他"是什么词汇,从而找出共指的 mention。当然,单纯这样做会有一些问题,比如 he 只是一个 token。把他丢到 BERT 中,它也只会补一个 token。这算是一个未解的问题。
该笔记来自于李宏毅视频,视频地址为:https://link.zhihu.com/?target=https%3A//www.youtube.com/watch%3Fv%3D2BemmceHKOU%26feature%3Dyoutu.be
Reference
李宏毅 《人类语言处理 2020》Deep Learning for Coreference Resolution
[Lee, et al., EMNLP’17] Kenton Lee, Luheng He, Mike Lewis, Luke Zettlemoyer, End-to-end Neural Coreference Resolution, EMNLP, 2017
[Su, et al., ACL’19] Hui Su, Xiaoyu Shen, Rongzhi Zhang, Fei Sun, Pengwei Hu, Cheng Niu, Jie Zhou, Improving Multi-turn Dialogue Modelling with Utterance ReWriter, ACL, 2019
[Wu, et al., ACL’20] Wei Wu, Fei Wang, Arianna Yuan, Fei Wu, Jiwei Li, Coreference Resolution as Query-based Span Prediction, ACL, 2020
[Lee, et al., NAACL’18] Kenton Lee, Luheng He, and Luke Zettlemoyer, Higher- order coreference resolution with coarse-to-fine inference, NAACL, 2018
[Joshi, et al., EMNLP’19] Mandar Joshi, Omer Levy, Luke Zettlemoyer, Daniel Weld, BERT for Coreference Resolution: Baselines and Analysis, EMNLP, 2019
[Kantor, et al., ACL’19] Ben Kantor, Amir Globerson, Coreference Resolution with Entity Equalization, ACL, 2019
[Kocijan, et al., EMNLP’19] Vid Kocijan, Oana-Maria Camburu, Ana-Maria Cretu, Yordan Yordanov, Phil Blunsom, Thomas Lukasiewicz, WikiCREM: A Large Unsupervised Corpus for Coreference Resolution, EMNLP, 2019
添加个人微信,备注:昵称-学校(公司)-方向,即可获得
1. 快速学习深度学习五件套资料
2. 进入高手如云DL&NLP交流群
记得备注呦