【自然语言处理】【文本风格迁移】基于风格实例的文本风格迁移

BQW_

已于 2022-08-21 15:08:39 修改

阅读量5k

点赞数 3

分类专栏：自然语言处理文章标签：自然语言处理人工智能机器学习文本风格迁移多任务

于 2021-12-18 20:19:08 首次发布

本文链接：https://blog.csdn.net/bqw18744018044/article/details/122016459

版权

自然语言处理专栏收录该内容

135 篇文章

订阅专栏

基于风格实例的文本风格迁移 Text Style Transfer via Learning Style Instance Supported Latent Space

原始论文：https://www.ijcai.org/Proceedings/2020/0526.pdf

相关博客
【自然语言处理】【文本风格迁移】基于向量分解的非并行语料文本风格迁移
 【自然语言处理】【文本风格迁移】基于风格实例的文本风格迁移

一、简介

风格迁移的目标是，保持句子语义内容不变的情况下，赋予句子不同的风格。由于缺乏大规模并行语料，近期主要的研究工作是集中在无监督迁移上的。
文学理论和机器学习研究均表明内容和风格一定程度上是耦合的，这导致了内容保持和风格准确两者间的矛盾。
目前主要有两种无监督风格迁移的范式
- 一种是基于分解的范式。这种方法显式地从内容中分离风格，然后合并一个新的风格表示。但是，由于分解的难度，指定目标风格中通常会带一些不期望的内容。因此，该方法通常会获得一个高风格迁移准确率，但是很难保持全部的源内容。
- 另一种范式是基于注意力结构来保证所有单词级别的源信息。不同于分解方法，该方法会强迫模型专注在风格独立的单词上。但是，这样的方法倾向于过度强调内容保持，导致风格准确性不理想。
语言学研究表明，风格的综合表征能够通过多个实例中的广泛比较来更好的观察到。受这个观点的启发，论文提出了一种称为 $\text{StyIns}$ 的风格实例支持方法，从而减轻上面的矛盾。

二、方法概述

2.1 问题形式化

假设具有 $M$ 个数据集 ${D_i\}_{i=1}^M$ ，在 $D_i$ 中的句子共享相同风格 $s_i$ 。给定一个具有源风格 $s_i$ 的任意句子 $x$ ，风格迁移的目标是将 $x$ 改写为具有风格 $s_j$ 的新句子 $y$ ，并保持其主要内容。

2.2 概述

该方法的核心思路：使用一些具有某个风格的句子来获得表示该风格的向量，这些具有相同风格的句子称为风格实例。

设存在一个句子集合 $\Phi_{K}^j=\{\hat{y}\}_{k=1}^K\sub D_j$ ，也就是这些句子共享风格 $s_j$ ，称这些句子为风格实例。利用这些风格实例来构造一个隐变量 $z$ ，来表示风格这个复杂的概念。假设同一个风格的句子间条件独立，可以推断出一个风格迁移的参数化表达式
$\begin{align} p(y|x,\Phi_K^j)&=\int p(y,z|x,\Phi_K^j)dz \\ &=\int p(y|x,z)*p(z|\Phi_K^j)dz \\ &=\mathbb{E}_{z\sim p(z|\Phi_K^j)}[p(y|x,z)] \end{align} \tag{1}$
等式(1)中 $p(y|x,\Phi_K^j)$ 表示给定风格实例 $\Phi_K^j$ 和待风格迁移样本 $x$ ，输出风格迁移后样本 $y$ 的概率。

根据等式(1)的指导，使用一个称为源编码器的双向 $\text{LSTM}$ 编码器，称为 $E_{src}(x)$ 。源编码器 $E_{src}(x)$ 负责将句子 $x$ 编码为隐藏状态 $H$ 。使用一个记为 $E_{sty}(\Phi_K^j)$ 的风格编码器，负责基于风格实例建模分布 $p(z|\Phi_K^j)$ 。使用一个称为 $D (H, z)$ 的解码器，其会基于 $H$ 和 $z$ 解码出风格迁移后的句子 $y$ ，其中 $z$ 是从 $p(z|\Phi_K^j)$ 中采样得到的。三个组件 $E_{src}(x)$ 、 $E_{sty}(\Phi_K^j)$ 和 $D (H, z)$ 共同构成了整个文本风格迁移生成器 $G(x,\Phi_K^j)$ 。

总结： $E_{src}(x)$ 编码原始句子， $E_{sty}(\Phi_K^j)$ 编码风格实例， $D (H, z)$ 解码风格迁移后句子。

四、隐风格空间学习

$E_{src}(x)$ 是一个双向LSTM， $D (H, z)$ 是一个基于注意力机制的LSTM解码器。因此，主要的问题是如何确定 $E_{sty}(\Phi_K^j)$ 。

风格编码器 $E_{sty}(\Phi_K^j)$ 使用风格实例作为输入，构建出一个隐风格空间，最终输出风格表示 $z$ ，该表示用于指导后续解码器的风格生成。先前的工作采用变分自编码器来构建隐空间。但是，变分自编码器会假设句子独立并将其分配到一个各向独立的高斯隐空间中。这种假设并不合理，维度独立的高斯分布表达能力不足，且相同风格的句子并不独立，而是共享一个全局的风格空间。

4.1 Generative Flow

简单来说，使用变分自编码器对句子进行编码并不是最优的，因此这里使用Generative Flow。

为了解决变分自编码器的问题，论文使用一种构建复杂分布的强力技术 $\text{generative flow, GF}$ 。简单来说， $\text{GF}$ 通过应用一系列参数化映射函数 $f_t$ ，将简单初始化隐变量 $z_0$ 转换为复杂变量 $z_T$ ：
$z_t=f_t(z_{t-1},c),z_0\sim p(z_0|c),t\in\{1,2,\dots,T\} \tag{2}$
其中， $c$ 是给定的条件， $T$ 是参数化映射函数的数量。 $\text{GF}$ 要求每个函数 $f_t$ 都是可逆的、且可以计算雅克比行列式。经过转换后的最终分布的概率密度为
$log\;p(z_T|c)=log\;p(z_0|c)-\sum_{t=1}^Tlog\;det\Big|\frac{d_{z_t}}{d_{z_{t-1}}}\Big| \tag{3}$
目前，已经有许多 $f_t$ 被提出。这里选择一个简单但有效的方法 $\text{IAF(Inverse Autoregressive Flow)}$ 。具体来说，有
$\begin{align} [m_t,o_t]\leftarrow g_t(z_{t-1},c),\sigma_t=\text{sigmoid}(o_t) \tag{4}\\ z_t=\sigma_t\odot z_{t-1}+(1-\sigma_t)\odot m_t \tag{5} \end{align}$
其中， $\odot$ 是element-wise乘法， $g_t$ 是自回归网络。

注： $g_t$ 来自论文《Made: Masked autoencoder for distribution estimation》

这里介绍了如何将隐向量 $z_0$ 转换为复杂隐变量 $z_T$ ，下面介绍 $z_0$ 是怎么来的。

4.2 风格实例支持的隐空间

为了构建更具表达能力的隐空间，这里抛弃平均场假设，通过利用 $K$ 个风格实例 $\Phi_K^j=\{\hat{y}_k\}_{k=1}^K$ 来构建隐空间，而不是单个实例。具体来说，将每个风格实例 $\hat{y}_k$ 输入至一个双向 $\text{LSTM}$ ，并获得向量表示为 $v_k$ 。假设初始隐状态为 $z_0$ ，且服从各向同性高斯分布
$\begin{align} &z_0\sim p(z_0|\Phi_K^j)=\mathcal{N}(u_0,\sigma_0^2I) \tag{6}\\ &u_0\approx \frac{1}{K}\sum_{k=1}^K v_k,\sigma_0^2\approx\frac{1}{K-1}\sum_{k=1}^K(v_k-u_0)^2 \tag{7}\\ &c=MLP(u_0) \tag{8} \end{align}$
其中， $z_0$ 的均值使用极大似然估计近似，方差使用无偏估计； $c$ 是 $\Phi_K^j$ 的全局表示，其主要是使用 $\text{MLP}$ 进行计算，在公式(4)会使用 $c$ 。

4.3 风格编码器

随着上面两个模块的引入，就可以得到风格编码器 $E_{sty}(\Phi_K^j)$ 的输出 $z$ 。具体来说，使用等式 $(6)$ 来采样 $z_0$ ，并使用等式 $(2)$ 进行映射。将采样得到的 $z$ 与词向量进行拼接，再输入至解码器的每个时间步上。

五、无监督训练

给定源句子 $x$ 以及源风格 $s_i$ 和目标风格 $s_j$ ，并给定两个风格实例集合 $\Phi_K^i$ 和 $\Phi_K^j$ ，使用下面的损失函数进行优化：

5.1 Reconstruction Loss

该损失函数已被不同的模型所使用，其需要模型基于源风格信号来重构给定的句子
$\mathcal{L}_{recon}=-log\;p_G(x|x,\Phi_K^i) \tag{9}$

使用 $x$ 和与 $x$ 相同风格的风格实例 $\Phi_K^i$ 来重构 $x$ 。

5.2 Cycle Consistency Loss

该损失函数最先被用在图像风格迁移中，被用来增强内容保持，之后被应用在文本上。这里用不同风格的实例来实现源句子的两个方向转换
$\mathcal{L}_{cycle}=-log\;p_G(x|y,\Phi_K^i),y\leftarrow G(x,\Phi_K^j) \tag{10}$
在每次迭代中，会提供不同的采样实例来帮助 $\text{StyIns}$ 更好的概况风格属性。

使用迁移后句子y和风格实例 $\Phi_K^i$ 来反向生成 $x$ 。

5.3 Adversarial Style Loss

由于没有任何并行语料，这里使用对抗训练来构建监督信号。具体来说，使用具有 $M + 1$ 个类别的分类器作为判别器 $C$ ，用于分类输入句子的风格。生成器的目标是欺骗判别器
$\mathcal{L}_{style}=-log\;p_C(j|y) \tag{11}$
其中， $p_C(j|y)$ 表示判别器认为 $y$ 属于风格 $j$ 的概率， $\mathcal{L}_{style}$ 用于更新生成器的参数。

判别器被交替优化
$\mathcal{L}_C=-[log\;p_C(i|x)+log\;p_C(i|\hat{x})+log\;p_C(M+1|y)] \tag{12}$
其中， $\hat{x}\leftarrow G(x,\Phi_K^i)$ ， $\mathcal{L}_C$ 用于更新判别器的参数。

损失函数 $\mathcal{L}_{style}$ 是用于更新生成器的，使生成器能够更新的生成指定风格的句子；损失函数 $\mathcal{L}_C$ 是用于更新判别器，使判别器能够更加准确的判断句子的风格。二者交替进行训练。

六、半监督训练

前面介绍的方法主要是基于没有并行风格语料的情况。但是，当 $x$ 拥有并行语料 $y^\ast \notin\Phi_K^i$ ，则可以通过最小化

$-log\;p(y^\ast|x,\Phi_K^j)$ 创建监督信号，从而辅助模型更好的完成风格迁移。

这里先推导一下 $-log\;p(y^\ast|x,\Phi_K^j)$ 的上界，

$-log\;p(y^*|x,\Phi_K^j)\leq \mathbb{E}_{q(z|y^*,\Phi_K^j)}[log\;p(y^*|z,x)] - KL[q(z|y^*,\Phi_K^j)||p(z|\Phi_K^j)] \tag{12}$
基于最小化这个上界，可以得到最终监督的Loss
$\mathcal{L}_{super}=-\alpha*\mathbb{E}_{q(z|y^*,\Phi_K^j)}[log\;p(y^*|z,x) + log\; p(z|\Phi_K^j)-log\;q(z|y^*,\Phi_K^j)]+\beta*\mathbb{E}_{q(z|\Phi_K^j)}[-log\;p(y^*|z,x)]$
其中， $\alpha$ 和 $\beta$ 是超参数。

通过优化 $\mathcal{L}_{super}$ ，同时最小化了 $-log\;p(y^\ast|x,\Phi_K^j)$ 的上边界和下边界。

七、整体训练流程

for 迭代数 do

　　采样源风格 $s_i$ 和目标风格 $s_j$

　　从 $D_i$ 中采样风格实例 $\Phi_{K}^i$ ，从 $D_j$ 中采样风格实例 $\Phi_{K}^j$

　　从 $D_i$ 中采样实例 $x$ ，其中 $x\notin \Phi_K^i$

　　累加 $\mathcal{L}_{recon}$ 、 $\mathcal{L}_{cycle}$ 、 $\mathcal{L}_{style}$

　　if $y^\ast$ 存在 do

　　　　累加 $\mathcal{L}_{super}$

　　更新生成器 $G$ 的参数

　　for 判别器更新的step do

　　　　使用 $\mathcal{L}_{C}$ 更新生成器 $C$ 的参数

　　end for

end for