Multi-News: a Large-Scale Multi-Document Summarization Dataset 文本摘要笔记

CxFt

已于 2022-04-14 21:13:49 修改

阅读量1.1k

点赞数 1

分类专栏： NLP 【AI】调研与实战文章标签： NLP 文本摘要 textrank

于 2022-03-19 19:25:03 首次发布

本文链接：https://blog.csdn.net/weixin_43499457/article/details/123600540

版权

NLP 同时被 2 个专栏收录

18 篇文章 4 订阅

订阅专栏

【AI】调研与实战

8 篇文章 0 订阅

订阅专栏

1.Multi-News

Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model

作者提出了第一个新闻多文档摘要数据集。它包含来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。此外，作者提出了一种端到端模型，该模型在各种多文档数据集（包括Multi-News）的自动和人工评估下实现了较好的结果。

文本摘要神经方法的最新进展主要应用于单文档新闻摘要和标题生成。这些利用了大型数据集，如Gigaword语料库、CNN/每日邮报（CNNDM）数据集、纽约时报数据集和编辑室语料库。其中包含的文章摘要对的数量从几十万到几百万不等。然而，多文档摘要旨在从同一主题的文档集群中输出摘要，它主要是在不到100个文档集群的数据集上执行的，如DUC 2004和TAC 2011数据集，而且从深度学习方法的进步中获益较少。

2.Pointer-generator Network

指针生成器网络是具有注意力的常用编码器-解码器摘要模型，其结合了从源文档复制单词和从词汇表输出单词。

step1:
在这里插入图片描述
hi：编码器将文档中的每个token转换为隐藏状态hi
dt：在每个解码步骤t，解码器具有隐藏状态dt
at：注意力分布
h∗t：上下文向量，token隐藏状态的加权和
表示t解码时间步骤的相关文档内容的语义意义

hi是编码器的隐状态，dt是解码器的隐状态
通过每个解码步骤解码器的隐藏状态dt、每个token隐藏状态hi计算每个token的注意力分布at；然后用at和hi计算文档表示。

step2:
然后将上下文矢量h∗t和解码器隐藏状态dt传递到两个线性层，以产生词汇分布Pvocab
对于每个单词，还存在复制概率Pcopy，即所有单词注意力权重之和

step3:
Pgen：从Pvocab词汇生成字，还是通过从复制概率Pcopy来从源序列复制字。

最终概率分布是词汇分布和复制概率的加权和：

3.Transformer

The Transformer model replaces recurrent layers with self-attention in an encoder-decoder frame-work
encoder：the multi-head self-attention sub-layer allows the encoder to directly attend to all other words in a sentence in one step.
decoder：contains the typical encoder-decoder attention mechanisms as well as self-attention to all previous generated output.

4.MMR

最大边际关联(MMR)是一种在摘要上下文中将查询相关性与信息新颖性相结合的方法。MMR根据与查询的相关性和冗余度产生候选语句的排序列表，该列表可用于提取句子。分数的计算方法如下：
在这里插入图片描述
R是所有候选语义的集合，Q是查询，S是已选择的句子集合，R\S是未选择的句子集合。一般来说，每次我们想要选择一个句子，我们都会对所有考虑相关性和重复性的候选者进行排名
希望Di和Q相似度大的同时，Di和其他句子的最大相似度小

5.PG-MMR

最近的一项工作将MMR应用于多文档摘要，创建了一个外部模块和一个句子重要性的监督回归模型。然而，我们提出的方法将MMR与pointer-generator network以端到端的方式结合在一起，对相似性和冗余性学习参数

1、从多文档拼接而成的大文档中，根据MMR分数，选出K个句子；动态调整K个句子的注意力权重；生成一句摘要。
2、重新挑选最重要的topk句子，来继续生成下一句摘要。但是挑选这些句子的时候，如果某个句子和已经生成的部分摘要比较相似（冗余度高），那么被选择的可能性降低。
MMR：
在这里插入图片描述
·前者表示第i句和文档的相似度，作为重要度

·后者表示第i句和已经生成的摘要句的相似度

6.Hi-MAP

我们将已有的指针生成器网络模型扩展为一个层次网络，使我们可以计算出实时级的MMR分数。我们的模型由一个指针生成器网络和一个集成的MMR模块组成。（这部分没细看）
在这里插入图片描述

7.First

我们将文档簇中每个主题的第一个句子串联起来作为系统摘要，对于我们的数据集，first-k意味着每个源文章的前k个句子将串联起来作为摘要

8.LexRank

在这里插入图片描述
其中LR（u）是句子的LexRank值
N是图中句子的总数，d是经验决定的阻尼系数
adj[u]是在图中与U相邻的句子的集合，w（v，u）是从句子v到句子u的权值

因此，一个句子的LexRank值是一个恒量加上其邻居节点的权值的平均。

9.TextRank

9.1 PageRank

PageRank本来是用来解决网页排名的问题，网页之间的链接关系即为图的边
在这里插入图片描述
其中，PR(Vi)表示结点Vi的rank值，In(Vi)表示结点Vi的前驱结点集合，Out(Vj)表示结点Vj的后继结点集合，d为damping factor用于做平滑。
一个点的重要性：所有指向这个点的点的重要性的平均值

9.2 TextRank

在这里插入图片描述
比PageRank多了一个权重项Wji，用来表示两个节点之间的边连接有不同的重要程度

9.3 TextRank生成摘要

将文本中的每个句子分别看做一个节点，如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边。考察句子相似度的方法是下面这个公式：
在这里插入图片描述
Si,Sj分别表示两个句子词的个数总数，Wk表示句子中的词，那么分子部分的意思是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。
共现词数量占句子长度比重越大，越相似