​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强...

9a73e2cb8dc648b5a82096defc703e93.gif

©PaperWeekly 原创 · 作者 | 郭必扬 

单位 | 上海财经大学信息管理与工程学院AI Lab

47b7f578e824acded52e083e685e7c8c.png

论文标题:

GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation

论文作者:

Biyang Guo, Yeyun Gong, Yelong Shen, Songqiao Han, Hailiang Huang, Nan Duan, Weizhu Chen

作者单位:

上海财经大学信息管理与工程学院 AI Lab;微软亚洲研究院;微软 Azure AI

论文链接:

https://arxiv.org/abs/2211.10330

Github链接:

https://github.com/beyondguo/genius(更多相关工作见:https://github.com/microsoft/SCGLab)

d4f088f2475f80aa64e95f26e81027e2.png

论文简介

本文提出了一种基于草稿进行文本生成(sketch-based text generation)的预训练模型 GENIUS。GENIUS 模型可以根据你给定的少量的关键词、短语、片段,进行文本补全,从而构成一个完整、连贯的段落。这类似于我们人类写作时先打草稿再进行创作的过程。GENIUS 使用了大量通用语料进行预训练,在预训练中使用了一种 extreme-and-selective masking 的策略,这些使得 GENIUS 有强大的生成能力。下面是一些例子:

05ab1e215212a0d8fe64cf8d5ebeea26.png

基于GENIUS的生成能力,本文还提出了一种新颖的数据增强方法——GeniusAug。GeniusAug 先从训练样本中抽取一个目标相关的 sketch,然后输入进 GENIUS 模型中进行新样本的生成。

相比于传统的数据增强方法,GeniusAug 既能够保存原样本的核心语义,还能够带来很大的多样性,从而使得模型在 in-distribution(ID)和 out-of-distribution(OOD)的情况都能得到显著的性能提升。实验验证 GeniusAug 可以通用于情感分类、主题分类、实体识别、机器阅读理解等多种 NLP 任务的数据增强。

2f2f248e27bdcc46d1a4072ea4537074.png

论文的代码和模型都已经开源,作者已经搭建了一个在线 demo,方便大家测试:

https://huggingface.co/spaces/beyond/genius

5c856ca9aec8635279f4e3473e03a485.png

b87fec53ccebbc856d1b818597a050a9.png

GENIUS的预训练

GENIUS 采用了一种 reconstruction from sketch 的预训练方式。先从完整文本中抽取一个 sketch,然后让模型根据 sketch 去重构这个文本。GENIUS 使用 BART [1] 模型进行初始化,在 C4 语料库上进行大规模预训练。

这里面的关键就是如何构造这样的 sketch,作者使用了一个 extraction-projection-masking 的 pipeline 来进行 sketch 构造:

1. extraction 使用无监督关键词抽取工具 YAKE [2],抽取最大为 3-gram 的关键词/短语,占比约为原文的 20%。这里抽取 3-gram 是为了抽取更大粒度的信息,从而降低重构难度。

2. projection 把抽取出来的关键信息,按照原文的位置、出现次数进行映射,且允许不同词语的重叠。

3. masking 把剩下的部分,使用单个的 MASK token 进行替换。

通过这样的三步,sketch 中就会保留原文的不同粒度的关键信息。经过作者统计,被 MASK 掉的内容平均占全文的 73%

这个 sketch 的抽取步骤看似很简单,但是其中几个设计很关

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: DiskGenius5.0.0.589是一款功能强大的硬盘分区和数据恢复软件。它能够管理和编辑硬盘分区,包括创建、删除、格式化、复制和调整分区大小等操作。此外,DiskGenius还可以对数据进行恢复,包括误删除的文件、格式化后的数据、丢失分区以及病毒攻击引起的数据损坏等。 该软件具有简洁的界面和丰富的功能,还可以进行数据备份和克隆等操作,能够帮助用户在数据丢失和硬盘分区问题时快速解决问题。此外,DiskGenius还具备修复MBR和文件系统、制作引导盘、尝试修复坏道等功能,方便用户在出现系统启动问题或硬盘损坏时进行应急处理。 总的来说,DiskGenius5.0.0.589是一款非常实用的硬盘分区和数据恢复软件,能够满足大多数用户的需求,是一款值得信赖的工具。 ### 回答2: DiskGenius5.0.0.589是一款功能强大的硬盘分区管理软件。它可以帮助用户进行磁盘分区、数据恢复以及数据备份等多种操作。具有易用性和高效性的特点。 首先,DiskGenius5.0.0.589可以帮助用户进行磁盘分区。 用户可以通过该软件来安排硬盘空间,使之更加合理地进行分区。其次,该软件还可以进行数据恢复。使用者可以利用DiskGenius5.0.0.589来恢复误删除、格式化、分区丢失等各类原因导致的数据丢失问题。而且,该软件可以支持多种文件系统的恢复,如NTFS、Fat32、exFAT等。此外,DiskGenius5.0.0.589还可以进行数据备份。通过该软件,用户可以对磁盘上的重要数据进行备份,以防止数据丢失。同时,该软件还有各种工具,如分区编辑、文件浏览、数据修改等等,为数据恢复和管理提供了更全面的支持。 总之,DiskGenius5.0.0.589是一个非常实用且强大的软件。它可以帮助用户进行磁盘分区、数据恢复以及数据备份等多项操作。使用者只需按照提示进行操作,就可以轻松实现各种功能,从而保证数据的安全和完整性。 ### 回答3: DiskGenius 5.0.0.589是一款功能强大的硬盘管理工具,它能够帮助用户进行分区、格式化、备份、恢复等多种常见的操作,同时还能够修复损坏的分区表和MBR等硬盘问题。该软件界面简洁明了,易于上手,支持多种文件系统,并且还能够帮助用户进行数据恢复,提高了数据的安全性和可靠性。 DiskGenius 5.0.0.589还支持虚拟磁盘的创建和管理,可以让用户方便地创建、挂载、管理虚拟磁盘文件,在不影响实际物理硬盘存储的基础上,给数据管理带来了便利和灵活性。 除此之外,DiskGenius 5.0.0.589还提供了一些高级功能,比如恢复被删除或丢失的文件,修复无法引导的操作系统以及重建RAID等,这些功能都为用户提供了极大的方便和保障。总之,DiskGenius 5.0.0.589是一款非常实用的软件,适用于多种使用场景,可以满足Windows用户对硬盘管理和数据安全的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值