PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

作者 :加拿大哥伦比亚大学,艾伦人工智能研究所,华盛顿大学

Abstract

模型名字:PRIMERA

用途:多文档表示预训练模型 ,用于Summarization

预训练目标:跨文档连接和聚合信息

模型结构:encoder-decoder 简化连接输入文档的处理

验证数据集:3个不同领域6个多文档摘要数据集

实验过程:零样本,少样本和全监督

结果:比当前state-of-the-art数据集好很多

Introduction

当前热门方法:

  • 基于图的多文档
  • GNN连接文档信息,层级信息
  • 单文档表示,然后再聚合
  • 缺点:当下都很少利用多文档信息

在这里插入图片描述

我们的做法:

提出一种简单预训练方法,减少了对大规模fine-tune数据的需要和特点数据集架构的需求。

预训练目标:

原来 GSG(Gap Sentence Generation)mask 几个句子,解码时按顺序恢复。

实体金字塔 Entity Pyramid :Mask 整个cluster中 salient 句子,鼓励跨文档查找信息汇总到一个摘要中
在这里插入图片描述

contribution
  • PRIMERA,第一个针对多文档输入的预训练模型
  • 提出Entity Pyramid,选择聚合salient information
  • 结果比当前state-of-the-art好很多,在零样本和少样本下表现好

Model

如何最小化特点结构数据集

如何mask句子,捕获entity pyramid

input structure

将多文档连成一个序列,使用longformer处理

  • 将多个文档连接成长序列(如何解决transformer宽度问题,速度效率如何)

  • 由于级联序列很长,使用Longformer ( LED)

  • LED模型 使用local+global attention机制,同时cross attention 使用full-attention,

    文档分隔符

Pretraining objective

其他general 摘要模型的预训练任务

  • PEGASUS 天马 GSG (Gap Sentence Generation) 预测被mask的句子
  • 这里也是用GSG,不过把不同文档的sent-mask的句子连接作为为摘要来尝试生成

如何选择哪些句子mask,作为为摘要呢

  • GSG中使用了三种策略 Random,Lead,Principle,其中Principle策略使用Rouge分数计算每个句子的salience score
  • 但由于多文档摘要中存在过多冗余信息,使得该方法不很适用。因此提出了实体金字塔Mask来选择最能代表输入文档集群的句子
Entity Pyramid Masking

方法来自:金字塔评估(2004),即一个摘要得分为SCU的标注化评价值,其中SCU为信息单元(摘要内容单元)

方法:

  • 使用spacy进行识别实体
  • 计算实体在该簇的不同文档出现频率,搭建文档频金字塔
  • 对频率高的句子集合,计算与文档簇的Rouge得分,来得到最后需要mask的句子,作为预训练目标

Experiments

实验准备:
  • 模型 longformer large

  • 输入长度 4096,输出长度 1024 ,512滑动窗口用于输入的局部注意力

  • 预训练数据集 The Newshead dataset (Gu et al., 2020)

  • 验证数据集

  • 验证指标 Rouge-1,Rouge-2,Rouge-L ,在少样本验证中使用了AVG Rouge进行验证

零样本,少样本实验设置:

由于目前预训练摘要任务,需要大量数据集进行fine-tune来适应特定领域数据集,很多现实场景不切实践,所以为了证明该预训练模型在零样本和少样本可以表现很好,做出实验。

由于零样本和少样本的实验结果会很大程度收到我们选择的样本质量影响,这里随机取10个样本,进行5次取不同random seeds的实验

对比实验设置:
  • BART
  • PEGSASUS

对于输入长度限制,使用input_length_limit/total_document长度来truncate每个文档。将BART和PEGASUS长度也设置相同

零样本实验:
  • 输出长度设置为黄金摘要平均长度

  • 推理过程中控制长度的方法(正交方向)留给未来工作

  • 实验结果如下

在这里插入图片描述

少样本评估:

少样本对于实际应用场景更为现实,十几个的标注数据都能得到。使用10个和100个样本来进行实验计算AVG-ROUGE,实验结果如下。

在这里插入图片描述

全样本估计:

大部分数据集是最好的,但在Multi-XScience上 略低,可能由于数据集cluster内部的文档关联性不高造成的。

在这里插入图片描述

Ablation Study:

在这里插入图片描述

证明自己的contribution的有效性

第一个我觉得没必要,首先自己就是用的别人的LED,然后就是不同文档中间加了。这也是别人提出的,而且对比还自己预训练,别人没预训练情况在少样本情况对比,这结果都不用想。

第二个图,其他处理都保存不变的情况下,将预训练策略改为PEGASUS的mask句子然后还原,证明有效性,本身PEGASUS预训练策略就不是为了mutli-document summary 任务,好一点也是应该的。

这里消融实验就提了两点还没什么用,也确实就是方法的迁移,本身没什么技术创新性。

人工评估

人工评估了对 DUC2007和TAC2008数据集 生成摘要的质量和文字流畅度。

评估人得到匿名摘要,SCU列表进行召回,选择。

摘要质量:(SCU的原始结果,和R ,P,F1值
在这里插入图片描述

其中R,P,F1计算如下,len(gold)为黄金摘要长度,len(sys)为系统生成的摘要长度。

在这里插入图片描述

流畅度(语法性,参考清晰度,结构和连贯性)

在这里插入图片描述

Conclusion

对于目前预训练任务,都是为了得到一个适合的自监督任务,考虑找一个适合的无监督任务生成自监督任务的label来进行预训练。

本文就是用了一种实体在文档中出现频率,然后找到包含该实体句子,在这些句子集合中再用Rouge得分排序,选择适合的setence集合。作为我们预训练任务的摘要。

对于零样本时,只能指定长度控制推理生成摘要长度,对于摘要,生成任务,能否自动控制输出适合长度的摘要,作为未来工作。

Confusion

这里我还没看源码,先考虑几个问题

  • 笔者用spacy工具实现实体识别,效果是否不好,而且得到实体是否较为广泛,如果我们真的需要真的某一领域进行多文档摘要时,可以通过词典,NER任务等方式选择更为合适的entity,来选择target setence。
  • 虽然本文为了增加输入长度限制使用了longformer,但始终还是只能达到4096,而且对于多文档摘要的策略4096除以文档数作为每个文档的max_len,这对于document来说有点过少了,所以如果我们使用该模型时,可能需要我们对输入文档进行前处理,选择重要部分(abstract,前几段,后几段)对于每个cluster的文档数也需要进行限制。可能也可以考虑将一个cluster的document进行分隔处理,然后将summary进行拼接或者更好进行结合处理。
  • 虽然该模型的少样本零样本的结果比以前模型好一点,但终究没有提高很多,还是无法用于实际,虽说现在摘要任务,能用于实际情况确实很少,而且基于都是简单摘要,对于多文档摘要问题还需继续努力。
    后几段)对于每个cluster的文档数也需要进行限制。可能也可以考虑将一个cluster的document进行分隔处理,然后将summary进行拼接或者更好进行结合处理。
  • 虽然该模型的少样本零样本的结果比以前模型好一点,但终究没有提高很多,还是无法用于实际,虽说现在摘要任务,能用于实际情况确实很少,而且基于都是简单摘要,对于多文档摘要问题还需继续努力。
  • 该预训练根据Rouge得分最终选择sentence集合作为abstract结果,如何排序句子,是随机排序吗,最后预训练模型也会学习到该随机排序的顺序,是否可以改进这里的sentence position。
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
目前市场上有许多存储厂商提供高端全闪存存储解决方案。以下是一些知名的存储厂商: 1. Dell EMC:Dell EMC提供了多种全闪存存储产品系列,如Dell EMC PowerMax、Dell EMC Unity、Dell EMC XtremIO等。这些产品具有高性能、高可靠性和灵活性的特点,适用于企业级应用和关键业务。 2. NetApp:NetApp的全闪存存储解决方案包括AFF系列(如AFF A800、AFF A700等)和EF系列(如EF570、EF280等)。NetApp的存储产品注重数据管理和数据保护功能,提供了卓越的性能和可靠性。 3. HPE:HPE(Hewlett Packard Enterprise)提供了多个全闪存存储产品线,如HPE Primera、HPE Nimble Storage、HPE 3PAR等。这些产品具有高度可扩展性、灵活性和可靠性,适用于各种企业应用。 4. IBM:IBM的全闪存存储产品包括IBM FlashSystem系列,如FlashSystem 9200、FlashSystem 7200等。这些产品具有高性能、高密度和低延迟的特点,适用于大规模数据中心和企业级应用。 5. Pure Storage:Pure Storage专注于全闪存存储,其产品系列包括Pure FlashArray//X、Pure FlashBlade等。Pure Storage的产品以出色的性能、简化的管理和高度可靠性而闻名。 此外,还有其他存储厂商如Hitachi Vantara、Huawei、Fujitsu等也提供高端全闪存存储解决方案。这些厂商在全闪存存储领域都有自己的技术和产品优势,可以根据具体需求选择适合的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值