【论文阅读】EssayGAN：基于生成对抗网络的数据增强用于自动作文评分

最新推荐文章于 2024-02-02 16:45:05 发布

沐兮Krystal

最新推荐文章于 2024-02-02 16:45:05 发布

阅读量1.2k

点赞数 1

分类专栏： NLP 文章标签：论文阅读生成对抗网络深度学习

本文链接：https://blog.csdn.net/GW_Krystal/article/details/127169934

版权

NLP 专栏收录该内容

27 篇文章 16 订阅

订阅专栏

摘要

构建一个基于AES的深度学习系统，需要一个包含人为打分的训练数据集。
本文介绍了EssayGAN，一个基于生成对抗网络的自动文章生成器。
为了生成打分了的文本，EssayGAN有每个分数范围对应的生成器以及一个鉴别器。每个生成器致力于一个特定的分数，并且生成打分为该分数的文本。这样，生成器能够只关注于产生一个看起来实际可行的文章，这个文章能够欺骗鉴别器，使得鉴别器不用考虑目标分数。
尽管普通文本的生成对抗网络（GANs）基于词来产生文本，EssayGAN基于句子来产生文本。所以，EssayGAN不仅能够通过在每一步预测一个句子的方式来创作长文章，而且能够通过应用针对不同目标分数的生成器来创作已经打好分的文本。
由于EssayGAN能够产生打好分的文本，产生的文本能够被用在AES的有监督的学习过程中。
实验结果显示使用扩充的文章来进行数据增强有助于提升AES系统的性能。我们得出结论，EssayGAN不仅能产生包含多个句子的文本，并且能够保持文章中句子之间的连贯性。

引言

在构建一个边缘的打分系统时候，收集人为打好分的文章的代价很高，这是一个瓶颈。自动数据增强能够作为一个对长期以来缺乏训练数据这一问题的解决方案。
传统的GANs包含两个子网络：一个产生假数据的生成器 以及一个用于区分真实数据和假数据的鉴别器。GAN的核心想法是在鉴别器和生成器之间做一个min-max game，比如说对抗训练。生成器的目标是产生鉴别器相信是真的的数据。
为了产生具有不同的分数的文章，EssayGAN有多个生成器和一个鉴别器。每个生成器只致力于产生某个分数的文本。生成器被训练用来区分真实和生成的文本。
总体而言，用GAN来生成文本，包含从一集合的预定义好的tokens中，预测下一个token，来产生最真实可信的文本。沿用同样的脉络，我们将文本生成考虑成，基于一集合预先选择好的句子的，一系列的对下一个句子的预测操作。
对于EssayGAN为什么对句子进行采样，而不是对token，有两个原因：一个时GAN很难产生长文本，即使是一个前沿的GAN模型也不能才是一篇长度有150-650个词的组织结构很好的文本。另一个是通过从目标分数下的文本中采样句子，能够使得更加容易得创作出对应于这个特定分数的文本。

EssayGAN

EssayGAN从一个句子集合中采样句子来创作一篇新的文章。
假设文章被 $r$ 个评分段/等级来打分，那么我们使用 $r$ 个生成器和 1 个鉴别器。
第 $i$ 个带有参数 $\theta _i$ 的生成器 $G_i$ ，表示为 $G_{\theta _i}$ ，并且带有参数 $\phi$ 的鉴别器被表示为 $D_{\phi}$ 。第 $i$ 个鉴别器的目标是产生能够被评估为分数为 $c_i$ 的文本。每个生成器 $G_{\theta _i}$ 产生一篇假文本来欺骗鉴别器 $D_{\phi}$ ，鉴别器辨别真和假的文本。
我们应用了一个增强学习的方法来训练生成器。鉴别器的输出分数被反馈给生成器。

句子表示

由于 EssayGAN 把句子作为它们的输入，每个句子需要被表示为一个单独的嵌入向量。
采用语言不可知（language-agnostic）的BERT句子嵌入（LaBSE），它能够产生对于109种语言的跨语言的语言无关的句子嵌入。

鉴别器

鉴别器的目标是区分人类写的和生成器创作的文章。
鉴别器的构建是基于双向LSTM网络的。通过查询向量表，第 $i$ 个句子 $s_i$
被转换为一个嵌入向量 $E_{s_i}$ 。
句子嵌入被馈入LSTM的隐藏层，第一个和最后一个隐藏状态会被连接成一篇文章表示。鉴别器的最后一层输出一个值，表征输入的文章有多大可能是真的。并且输出的值会被提供给生成器作为反馈值。

生成器与增强学习

下图是第 $i$ 个生成器，它被分配生成打分为 $c_i$ 的文章。
我们使用LSTM网络作为生成器的基础架构。LSTM网络最初是使用训练数据集采取一个句子级别的语言模型进行预训练的，并且采用了一个常规的最大似然估计方法。这样，预训练的LSTM能够基于先前选择了的句子，来预测最可能的下一个句子。在预训练阶段之后，对抗训练被轮流得应用于生成器和鉴别器。
每个LSTM单元的输出层有和句子级别的独热向量一样的维度，它能够标识一个特定的句子。每个LSTM单元的隐藏层输出 $h_t$ 被递归的定义如公式(1)，并且LSTM预测的句子能够被定义如公式(2)：
$\begin{array}{cr} h_t=LSTM(h_{t-1},E_{s_t})&(1)\\ p(\hat{s_{t+1}}|S_0,s_1,...,s_t)=softmax(Vh_t+b)&(2) \end{array}$
下一个句子是通过基于期望概率的随机采样来选择的。
在应用对抗训练来文章生成的时候有一个障碍：鉴别器只能对一整篇文章提供一个反馈值，但是生成器需要在每一个采样步骤时得到不完整的文章的反馈值。这样，为了在每个采样步骤对生成器给予反馈，我们在评估下一个位置句子的时候应用了蒙特卡洛搜索来给出一篇完整的文章。
第 $i$ 个生成器 $G_i$ 使用鉴别器 $D_{\phi}$ 提供的反馈，采用REINFORCE算法的方式进行更新。生成器的目标是最大化期望的反馈。 $R_n$ 是一整篇长度为 $n$ 的文章的反馈。 $Q_{D_{\phi}}^{G_{\theta _i}}(s,a)$ 是一个序列的行动值函数，比如说，期望的累计反馈从状态 $s$ 开始，之后采取行动 $s$ ，并且遵循 $G_{\theta _i}$ 的方式。

实验结果

训练EssayGAN和数据集

对抗训练算法
数据集：ASAP数据集，8个话题（prompts）
分数范围的处理：
采用一个分区模型，将分数离散化为几个分区。比如，分数范围为0-60，将其离散化为5个分区0，1，2，3，4。

扩充文本的特征

我们设置了两个baseline模型来做数据增强，来与EssayGAN做比较。 $R an d o m$ 是一个数据增强模型，它通过随机组合选择的句子来产生新文本。
训练数据集中的每篇文本中的所有句子都被假设是有序编号的。 $Random_{Order}$ 通过以非降序的顺序收集句子来产生文本，来保证句子之间最低的连贯性。
源文本数：如果一个新生成的文本的源文本数太多，那么它的内容一致性就会降低；
句子逆序数：如果新产生的文本的句子逆序数很少，那么文本的连贯性就会更高。
一个更加显式的指标来检验扩充文本的连贯性。语义相似度衡量了一篇文本内的语义相似度。

实验结果

以下实验的目的是展示产生的文本作为训练数据是否对AES系统有用。

沐兮Krystal

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
【论文阅读】EssayGAN：基于生成对抗网络的数据增强用于自动作文评分

构建一个基于AES的深度学习系统，需要一个包含人为打分的训练数据集。本文介绍了EssayGAN，一个**基于生成对抗网络的自动文章生成器**。为了生成打分了的文本，EssayGAN有每个分数范围对应的生成器以及一个鉴别器。每个生成器致力于一个特定的分数，并且生成打分为该分数的文本。这样，生成器能够只关注于产生一个看起来实际可行的文章，这个文章能够欺骗鉴别器，使得鉴别器不用考虑目标分数。尽管普通文本的生成对抗网络（GANs）基于词来产生文本，EssayGAN基于句子来产生文本。
复制链接

扫一扫