飞马(PEGASUS):Google最新的摘要汇总模型

  Google AI如何生成人为水平的摘要

  

飞马(PEGASUS):Google最新的摘要汇总模型

  > Photo by Sudan Ouyang on Unsplash

  摘要能力可以评估一个人对给定的一段文字或某种语言的理解。

  也许一个人智力的最好考验是他做总结的能力

  — Lytton Strachey

  因此,总结是NLP中一个相当重要的概念。 在本文中,我已经介绍了整个摘要和抽象摘要以及使用Transformers的实现。 如果您有兴趣了解此任务的简要背景,请考虑阅读该文档。 PEGASUS模型是在Transformer体系结构上训练的。

  在本文中,我们将讨论由Google AI提出的最新论文" PEGASUS:使用提取的间隙句进行抽象概括的预训练",该论文应该出现在ICML 2021中。

  飞马(PEGASUS):预先训练以提取的句子作为抽象摘要

  像任何其他序列转导任务一样,PEGASUS也实现了seq2seq体系结构。 然而,这种架构的新颖之处在于其自我监督的预训练目标。

  自主学习是深度学习的新领域。 从本质上讲,它消除了数据对标记样本的依赖性,并使大量未经探究,未标记的数据可用于培训。

  事实证明,将基于Transformer的模型与自我监督的预训练(例如BERT,GPT-2,RoBERTa,XLNet,ALBERT,T5,ELECTRA)相结合是非常有效的。

  差距句生成(GSG):自我监督的总结目标

飞马(PEGASUS):Google最新的摘要汇总模型

  > Self-Supervised Pre-training in PEGASUS by Google AI Blog

  该目标背后的主要思想是这样一个假设,即预训练自我监督目标越接近最终的下游任务,微调性能越好

  因此,在PEGASUS中,从文档中删除了完整的句子(即"蒙版"了),并且训练了模型来预测这些句子,如图所示。 作者承认,即使实际上对于人类来说,这项任务似乎几乎是不可能的。 但是,这种培训对于生成带有原始文档实例的句子产生了更高的理解力。 从而支持他们的假设。 此任务被称为"间隔句生成(GSG)"。

  此外,作者断言从文档中选择最重要的句子进行掩盖效果最佳。 这是通过根据称为ROUGE(通常用于评估摘要任务中摘要质量)的度量来查找与整个文档最相似的句子来完成的。

  屏蔽语言模型(MLM)

  尽管PEGASUS的主要贡献是GSG(在上一节中已讨论过),但它的基本体系结构由编码器和解码器组成。 因此,将编码器作为一种掩蔽的语言模型进行预训练是有意义的。

  

飞马(PEGASUS):Google最新的摘要汇总模型

  > Language Modeling v/s Masked Language Modeling by Google AI Blog

  在此任务中,我们从序列中随机屏蔽单词,并使用序列中的其他单词来预测这些屏蔽的单词。 GSG任务可以解释为文档级MLM,并且是从这个概念派生而来的。

  因此,正如BERT论文中所建议的,来自序列陪玩的15%单词被随机屏蔽,并且训练模型来预测这些屏蔽的单词。

  联合训练

  前面几节中讨论的两种方法都已合并,并且以组合方式培训了Transformer。

  

飞马(PEGASUS):Google最新的摘要汇总模型

  > MLM (left) + GSG (right) training together in PEGASUS from the paper

  GSG和MLM都同时应用于此示例作为预训练目标。 本来有三句话。 一句话用[MASK1]掩盖,并用作目标生成文本(GSG)。 其他两个句子保留在输入中,但某些单词被[MASK2](MLM)随机掩盖。

  —飞马论文

  结果

  该模型在12个公共抽象摘要数据集上进行了微调。 通过对很少数量的样本进行训练,它在其中的6个数据集上已经超越了现有技术水平。

  微调

飞马(PEGASUS):Google最新的摘要汇总模型

  > Various Variants of the ROUGE Metric on Selected 4 Datasets (Dotted Lines are Results from Fully S

  可以清楚地看到,PEGASUS仅用最少的1000个训练样本就已经超过了这些数据集,并达到了最新水平。

  人类质量摘要

飞马(PEGASUS):Google最新的摘要汇总模型

  > Human Rating Tests by Google AI Blog

  PEGASUS还通过3个数据集实现了人为水平的结果。 评估是通过对人员摘要和模型生成的摘要进行评级来完成的,而不知道哪一个是哪一个。

  "我们用3个不同的数据集进行了实验,发现人类评估者并不总是喜欢人类摘要而不是我们模型中的人类摘要"

  数船

  这是PEGASUS实现的另一个有趣的结果:

  Xsum数据集的一篇文章建议了4艘船的名称。 HMS坎伯兰,HMS坎贝尔敦,HMS查塔姆和HMS康沃尔。 该模型正确地将其抽象为"四艘皇家海军护卫舰",尽管这里没有提及样品中的"四艘"数字。

  考虑到这是a幸,作者已通过在列表中添加或删除名称进行了测试。 如果有2–5个名称,该模型将正确抽象该数字。 但是,它把6艘船误认为是"七艘",这表明它只能提取列表中的少量名称。

  演示可以在这里找到。

  有趣的事实:与T5等同类模型相比,该模型取得了更好的结果,同时仅使用了T5参数数量的5%。

  结论

  我们已经讨论了Google最先进的抽象摘要模型的工作方式。 我们还看到了与下游任务相对相似的任务的预训练如何在微调中极大地提高模型性能。 这为自监督的预训练目标建模提供了一种可能性,比起一般而言,它更具体。

  代码和检查点是开源的,可以在这里找到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值