【论文解读】从可扩展的远程情感监督构建的附有结构和主次标记的MEGA RST 篇章树库

最新推荐文章于 2023-10-16 23:10:51 发布

AI让世界更懂你

最新推荐文章于 2023-10-16 23:10:51 发布

阅读量438

点赞数

分类专栏：论文阅读文章标签：自然语言处理人工智能篇章分析语料库远程监督

本文链接：https://blog.csdn.net/qq_35082030/article/details/119911929

版权

论文阅读专栏收录该内容

13 篇文章 1 订阅

订阅专栏

前言

本文是EMNLP 2020年的论文《MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable Distant Sentiment Supervision》读后感。

摘要

缺少大规模和多样性的篇章语料库阻碍了以数据为驱动方法的应用，例如将深度学习应用到RST风格的篇章分析中。本文中，我们提出一种新型的大规模方法通过情感分析数据集远程监督自动生成篇章结构树，称为MEGA-DT。这是一种大规模篇章标注语料库。我们的方法依赖于一种有效的启发式的柱搜索方法生成附带有主次信息的篇章结构树。这种启发式柱搜索依赖于随机采样。在多个数据及上的实验结果显示我们的MEGA-DT篇章结构树库训练的篇章解析器能够在跨领域篇章解析中取得更好的效果，相比较于人工标注的语料库训练出的解析器。

1. 引言

篇章分析是NLP领域中一个重要的任务，目的是发现连贯文章下隐含的结构，RST和PDTB等理论都有所描述。篇章分析不仅能够增强一些重要的下游任务，如文本分类，自动摘要和情感分析等，它也出现在一些上下文嵌入中，如利用BERT在论元分析中，这些任务中篇章信息至关重要。

一般的，RST分割的篇章结构树是为一棵树构建一个完整的层次化的成分树，这里的叶子节点是一些类似子句的句子片段，称之为EDU。内部节点则是标注为篇章关系。而且，每个节点会根据该节点在局部上下文中的重要程度编码一个主次参数。

对于进一步研究RST风格的篇章分析的一个关键制约因素是训练语料的规模。只有一些较小的人工标注的语料库。尽管目前一些使用情感远程监督的方法部分的解决了这个困境，但是仍然有以下2个缺点：（1）只构建了篇章结构，没有主次和关系。（2）使用的CKY算法不能够应用到非常长的文档中。

本文中，我们提出一个明显的改进在这条研究线上，通过引入一个可以针对文章的长度可扩展的解决方案，它不仅能够预测结构，而且融入了主次信息，这个在很多任务中都非常有用。受到目前在启发式搜索上的成功案例，我们开发了一种使用类似强化学习的一种柱搜索方式。

特别的，通过这种启发式方法，任何大规模情感标注语料库都已转换为一个篇章语料库，从而训练其篇章解析器。对于这个过程的一个样例分析，我们在Yelp13上构建了MEGA-DT语料库，标注了约250k的文档的结构和主次的银标准。

为了评估我们标注的MEGA-DT语料库的质量，我们进行了一系列的实验。我们首先训练了最好性能的解析器（Wang, 2017）在MEGA-DT上用于比较其他语料库上同样的解析器的效果。具体的，我们比较了一个EDU<21的大约100k规模的自动标注语料库以及2个人工标注语料库（RST-DT和Instr-DT）。

实验结果显示尽管在MEGA-DT上的解析器表现没有比在同样语料库上训练和测试的效果好，但是它也提供了远程监督的另一种可能。在多数情况下，在MEGA-DT上的训练结果显著由于其他解析器，在跨领域的篇章解析任务中，这可以用于更困难、更有用的跨域篇章预测任务。

总而言之，这证明了我们的新的方法通过情感分析的角度进行远程监督是可以生成大规模高质量的篇章语料库，它可以应用到一个没有标准篇章标注的语料库的情况下进行篇章解析器的训练。

2. 相关工作

和这个工作最相关的是RST风格的篇章解析，其目标是构建一颗完整的篇章结构树，包含结构，主次和关系。基于对于以上三个方面的相关性分析，之前的工作通常会联合学习它们。然而，这个策略有些直观，在最优的模型中，Wang使用了一个不同的策略，通过首先预测结构和主次，然后再去预测关系。这样的一个最主要的动机是可以解决输出时分类结果的稀疏化。在RST-DT语料库上Wang的模型的成功也启发了我们同时将结构和主联合起来，而不是联合三个方面。

第二个和这个任务相关的是从粗颗粒度信息的监督中获得细颗粒度的信息的机器学习。由于在很多任务和领域中缺少标注数据，因此最近几年也有很多工作探寻去自动的生成可靠的、细颗粒度的带有标记的数据。一个有钱度的方法是MIL多样本学习。这个方法的一般思路是通过从较粗颗粒度的监督信号中抽取出细颗粒度的信息，使用样例和预测标签的相关性。随着最近深度学习的兴起，使用神经网络的多样本学习也被提出。

我们首先组合这两条线去构建一个银标准的语料库（Huber, 2019），通过的是一个神经多样本学习模型以及CKY全局优化方法生成篇章结构树。虽然我们的模型能够有很好的有点，但是他无法应用到非常长的文本中由于时间复杂度问题，而且没有主次和关系标签。因此本文着重解决这两个部分。

更进一步的从文本分类或者自动摘要来生成篇章结构树的任务工作都聚焦于隐式树约减。这些方法都是领域以内的，而且尽管证明是能够改善下游任务，但是接下来的研究显示这些树都是非常浅层的并不是一个有效的篇章结构树。

第三条线是使用启发式搜索算法解决NLP中涉及树的问题。对于一个局法术，Vinyals和Fried都显示使用一个静态的只包含10个元素的柱搜索就能够取得很好的性能。最近的研究显示使用柱搜索也能够提升篇章分析的性能通过移进规约算法。总而言之，最近的工作显示出柱搜索能够改善可扩展问题在许多篇章分析场景下。本文中，我们扩展了标准的柱搜索方法通过一个启发式的方法。

3. 从情感分析预测篇章结构

之前的工作显示融入篇章结构树能够帮助篇章级情感分析。这些发现给了我们一个假设，那就是文章的情感因素也能够提供篇章结构的一些线索。在接下来的章节里，我们将会简要介绍之前用于探索文档及情感分析的方法。然后，我们会展现我们的新的方法，能够客服可扩展问题以及同时预测结构和主次。

3.1 预测短文本的篇章结构

篇章结构树可以从它的整体情感中获得通过融合MIL和CKY算法。我们也会举例介绍。通过一个序列包含EDU，每个EDU都会有2个部分的标签，一个是其极性的标签p[-1,1]，一个是其注意力标签a[0，1]。然后通过这两个就可以获得其父节点的极性和注意力标签。这里的注意力就和权重是一致的。具体的父节点合并方法如公式1所示：
在这里插入图片描述
然而，这种在之前研究中采用的方法只能适应非常短的文章，例如只包含小于等于20个EDU的文章，因为由于采用CYK算法，所以其子树个数是卡特兰数增长。第二，之前的方法没有考虑到主次标签，而这个信息对于下游任务非常有用。

3.2 从任意文档中预测篇章结构和主次

受到最近在柱搜索能够增强多个NLP解析任务上的成功的启发，我们提出一种新型的启发式柱搜索方法能够自动的生成篇章结构树的结构和主次信息，对于任意长度的文档都可以。

**启发式柱搜索。**本质上，一般的CKY动态规划算法会创建所有的n个EDU的可能到一个N*N的矩阵中。每一个元素cell(ij)都包含了所有的子树在从EDUi到EDUj的文本跨度上。我们的启发式柱搜索方法通过减少每个cell中的子树数量到一个B来减少时间复杂度。这自然有一个问题，那就是如何选取B个子树？常规的就是通过根据子树极性与全局极性差异最小的前K个子树即可，如式2所示：
在这里插入图片描述
然而，这种启发式的一个缺陷是早期的时候，有些EDU的观点是只和自己有关的，与其父节点无关的。这就会导致一些整体上是积极地树在最早期的时候那些消极的节点不会合并，然而它们是有可能被合并在一起的。

为了解决这个问题，我们采用平滑的Boltzmann-Gibbs采样来缓解这个问题，就是不再简单的保留B个最好的子树，而是采用通过极性的大小来控制采样的概率，从而使得一些消极的节点也有可能被选中，如式3和4所示：
在这里插入图片描述
图2就可以展示出这两者的不同，很容易看出，使用一般CYK的方法的概率是0/1分布的，但是使用启发式CYK算法时，消极的样例也是有概率值被选中的。

空间复杂度分析该方法显著减少了时间复杂度，如式5和6所示。
在这里插入图片描述
表1也能够直观的展示时间复杂度在不同柱空间和EDU数量下的变化。

融合主次根据主次信息的定义，在局部重要的部分就是主要的，不重要的就是次要的。主次信息对于自动摘要和文本分类都非常有用。

根据之前的信息，可以通过两个注意力的大小来判断主次，acl和acr谁大谁就是N，另一个就是S。而对于NN来讲，那就是要求两边一样大，因此，在进行父节点的P值计算时额外增加一种可能，那就是acl=acr=0.5即可。这种方法也是完全可行的，因为只是将我们的算法增加了一倍的计算量。

4. 评估

本节中，我们会通过在MEGA-DT上训练生成篇章结构树来评估其语料库的质量。
在这里插入图片描述
第一个表格里是不使用训练模型的结果，可以看到在英语中就是右倾的篇章结构。NS还是占了多数。
第二个表里则是领域内的各个模型的性能表现。
第三个表里则是跨领域的性能表现，可以看懂啊在MEGA-DT上的迁移性最好。