论文领读｜基于 VQVAE 的长文本生成

澜舟孟子开源社区

于 2022-11-28 18:07:43 发布

阅读量778

点赞数

分类专栏： NLP 论文领读文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/langboat_mengzi/article/details/128084259

版权

本次与大家分享一篇建模长文本篇章结构的工作，用以提升生成文本的连贯性。

摘要由CSDN通过智能技术生成

欢迎关注「澜舟论文领读」专栏！关注“澜舟科技”公众号探索更多 NLP 前沿论文！

本期分享者：杨二光

北京交通大学自然语言处理实验室四年级博士生，导师为张玉洁教授，研究方向为可控文本生成、复述生成、故事生成。在澜舟科技实习期间主要从事长文本生成、营销文案生成等课题。

前言：

近年来，多个大规模预训练语言模型GPT、BART、T5等被提出，这些预训练模型在自动文摘等多个文本生成任务上显著优于非预训练语言模型。但对于开放式生成任务，如故事生成、新闻生成等，其输入信息有限，而要求输出内容丰富，经常需要生成多个句子或段落，在这些任务上预训练语言模型依然存在连贯性较差、缺乏常识等问题。本次与大家分享一篇建模长文本篇章结构的工作，用以提升生成文本的连贯性。

论文题目：DISCODVT: Generating Long Text with Discourse-Aware Discrete Variational Transformer

论文作者：Haozhe Ji, Minlie Huang

论文单位：清华大学

论文链接: https://github.com/cdjhz/DiscoDVT，EMNP2021

动机（Motivation）

文本的全局连贯性一般表现为：

内容表达的流畅度和
内容之间的自然过渡。

如下图示例文本中的话语关系词（after, then, and, but等），这些篇章关系词将连续的文本片段（text span）进行合理安排，从而形成结构、逻辑较好的文本。虽然预训练语言模型在关联与主题相关的内容时表现较好，但用好的篇章结构来安排内容仍然存在很多挑战。针对此问题，研究者提出建模文本内部片段与片段之间的篇章关系，利用篇章结构指导生成，以期能够改进生成文本的连贯性。

图 1 EDU片段和篇章关系示例

方法（Method）

2.1 任务定义

首先，长文本生成的任务可以定义为：给定输入 $x=(x_1, x_2, \cdots ,x_N)$ ，模型自动生成 $y = (y 1, y 2, \dots y M)$ , $y=(y_1, y_2, \cdots , y_M)$ 的过程，即 $p (y ∣ x)$

基于以上的讨论，该工作基于VQVAE的方法提出DiscoDVT（Discourse-aware Discrete Variational Transformer），首先引入一个离散code序列 $z=(z_1,z_2, \cdots ,z_L)$ 学习文本中每个局部文本片段(span)的高层次结构，其中每一个 $z_l$ 从大小为 $K$ 的code vocabulary中得到。随后作者进一步提出一个篇章关系预测目标，使离散code能够捕获相邻文本片段之间显式的篇章关系，比如图1中的篇章关系，after,then等。