GENIUS: 根据草稿进行文本生成的预训练模型，可用于多种NLP任务的数据增强...

最新推荐文章于 2025-03-11 15:03:56 发布

PaperWeekly

最新推荐文章于 2025-03-11 15:03:56 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/128107610

版权

GENIUS是一个预训练模型，专注于基于草稿的文本生成和数据增强。它采用极端选择性遮罩策略进行预训练，通过抽取关键词并使用MASK token构造sketch，提高了文本重构能力。这种方法生成的样本在保留核心语义的同时，增加了多样性，适用于多种NLP任务的数据增强，如情感分类、主题分类、实体识别和机器阅读理解。实验表明，GENIUS在低资源设置下也能显著提升模型性能，特别是在out-of-distribution任务中。此外，GeniusAug是一种利用GENIUS进行数据增强的新方法，通过目标感知的sketch提取和属性控制，提高了样本质量和多样性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 郭必扬

单位 | 上海财经大学信息管理与工程学院AI Lab

论文标题：

GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation

论文作者：

Biyang Guo, Yeyun Gong, Yelong Shen, Songqiao Han, Hailiang Huang, Nan Duan, Weizhu Chen

作者单位：

上海财经大学信息管理与工程学院 AI Lab；微软亚洲研究院；微软 Azure AI

论文链接：

https://arxiv.org/abs/2211.10330

Github链接：

https://github.com/beyondguo/genius（更多相关工作见：https://github.com/microsoft/SCGLab）

论文简介

本文提出了一种基于草稿进行文本生成（sketch-based text generation）的预训练模型 GENIUS。GENIUS 模型可以根据你给定的少量的关键词、短语、片段，进行文本补全，从而构成一个完整、连贯的段落。这类似于我们人类写作时先打草稿再进行创作的过程。GENIUS 使用了大量通用语料进行预训练，在预训练中使用了一种 extreme-and-selective masking 的策略，这些使得 GENIUS 有强大的生成能力。下面是一些例子：

基于GENIUS的生成能力，本文还提出了一种新颖的数据增强方法——GeniusAug。GeniusAug 先从训练样本中抽取一个目标相关的 sketch，然后输入进 GENIUS 模型中进行新样本的生成。

相比于传统的数据增强方法，GeniusAug 既能够保存原样本的核心语义，还能够带来很大的多样性，从而使得模型在 in-distribution（ID）和 out-of-distribution（OOD）的情况都能得到显著的性能提升。实验验证 GeniusAug 可以通用于情感分类、主题分类、实体识别、机器阅读理解等多种 NLP 任务的数据增强。