《Segmentation Approach for Coreference Resolution Task》阅读笔记

本文链接：https://blog.csdn.net/qlzyssm/article/details/108790007

文章目录

一、研究内容
二、方法
三、实验结果及分析
四、总结

一、研究内容

这篇文章的研究内容是篇章内的共指消解任务。文中提出方法的特点在于：可以一次性同时完成文章所有mention的消解，并捕获长距离的特征。

该方法主要是通过为mention的位置关系设置一个嵌入实现的，具体而言，使用BERT对文章进行编码，然后基于此构建跨位置的嵌入式矩阵。

从实验结果来看，在CoNLL 2012任务上，并没有达到SOTA，但是与其它方法，该方法可以更好地捕获到长距离依赖关系。

二、方法

现有的共指消解办法大都包含两个任务：找到mention和发现mention之间的共指关系，作者提出的方法则可以移除entity mention这个过程，而直接输出mention之间的共指关系。

该方法的灵感来源于图像分割任务，即将文档中的每一个token视为图像中的一个像素点，然后对其进行分类。分类完成之后，即实现了对mention之间的消解。为了实现该方法，作者首先定义了位置嵌入矩阵，如下图所示，在该矩阵中，行代表span的长度，而列则代表了该span的第一个token在文档中的位置。
在这里插入图片描述

如图所示，该模型主要包含两部分：
（1）BERT Encoder
这里借鉴了BERT for Question Answering的方法，即将文档和mention组成sentence pair一起输入BERT中进行编码，目的在于捕获token之间的关系。

（2）Convolutional Encoder
该部分通过卷积来将BERT的输出映射到位置嵌入矩阵。假设BERT输出token的特征向量的维度为m，那么该部分就是用大小为m * i的卷积核来得到矩阵第i行的输出（i的取值范围为1到10），最后将这10个卷积核得到的结果进行叠加，从而得到最终的位置嵌入矩阵。之所以是用宽度为i的卷积核来得到第i行的输出，目的在于获取长度为i的span之间的关系，从而判断span之间是否共指。