Adversarial Multi-task Learning for Text Classification-阅读笔记

最新推荐文章于 2024-06-03 09:41:11 发布

百川AI

最新推荐文章于 2024-06-03 09:41:11 发布

阅读量946

点赞数

分类专栏： DeepLearning 文章标签： Text Classification Multi-task Learning Adversarial Multi-task Learning SP-MTL Adversarial Training

本文链接：https://blog.csdn.net/shine19930820/article/details/100088098

版权

DeepLearning 专栏收录该内容

41 篇文章 6 订阅

订阅专栏

Adversarial Multi-task Learning for Text Classification

MTL中，通过共享网络层，以期望共享层提取与任务无关的特征，实际过程中可能会包含特定任务的特征或者无关的噪音。

基于此，文章提出一个对抗的MTL框架，减少共有特种和私有特征之间的干扰。作者通过在16个不同分类任务上证明其方法可用性，同时，共有特征可以作为知识迁移到新的任务上。

主要贡献

提出的新模型以更精确的方式划分任务特定（私有）空间和共享空间，而非粗略地共享参数。
作者将原始的二元对抗性训练扩展到多类，这不仅使多个任务可以联合训练，而且允许使用未标记数据（半监督的学习）。
作者将多个任务之间的共享知识压缩到一个现成的神经层，这可以很容易地迁移到新的任务中（模型具有较好的可迁移性）。

作者举例：

The infantile cart is simple and easy to use.
This kind of humour is infantile and boring.

两句话中，单词“infantile”在第一句话中表示中性情感，在第二句表示消极情感, 在两种情感分类任务中，“***infantile”***会被放在共享空间，导致将第一句话分类为消极情感。

为了解决这个问题，本文通过引入对抗训练和正交约束分离共享和私有空间。对抗训练用于确保共享空间只包含共有的信息，正交约束用来消除共享和特有空间冗余的特征。

Adversarial Multi-task Learning

在这里插入图片描述

黄色lstm用于提取共有特征，灰色提取任务的私有特征。

任务k的公有特征
$\mathbf{s}_{t}^{k}=\mathbf{L} \mathbf{S} \mathbf{T} \mathbf{M}\left(x_{t}, \mathbf{s}_{t-1}^{k}, \theta_{s}\right)$
任务k私有的特征
$\mathbf{h}_{t}^{k}=\mathbf{L} \mathbf{S} \mathbf{T} \mathbf{M}\left(x_{t}, \mathbf{h}_{t-1}^{m}, \theta_{k}\right)$

问题1：如何保证共享编码器提取的是公有特征？

Adversarial Network

对于一个判别模型D，和一个生成模型G。

生成模型G：共享的编码器，这里是LSTM。 $\mathbf{h}_{t}=\mathbf{L} \mathbf{S} \mathbf{T} \mathbf{M}\left(\mathbf{h}_{t-1}, \mathbf{x}_{t}, \theta_{p}\right)$

Task Discriminator D: 输入是共享的特征，目标是判断输入语句来自于哪一个任务。

引入对抗损失
$L_{A d v}=\min _{\theta_{s}}\left(\lambda \max _{\theta_{D}}\left(\sum_{k=1}^{K} \sum_{i=1}^{N_{k}} d_{i}^{k} \log \left[D\left(E\left(\mathbf{x}^{k}\right)\right)\right]\right)\right)$
其中 $d_i^k$ 表示第i个样本是否属于任务k。该损失函数优化LSTM的参数来误导判别器，同时优化判别器参数尽量分类出语句属于哪一个任务。

Semi-supervised Learning Multi-task Learning

从上面的公式可以看出，训练过程并未用到样本的label，所以可以使用两个域的无标签的数据来训练对抗网络。

问题2：如何保证私有编码器提取的是私有特征？

Orthogonality Constraints

$L_{diff}=\sum_{k=1}^{K} \|{{S}^{k}}^{\top}H^k\|^2_F$

$\|\cdot\|_{F}^{2}$ 表示矩阵范式，而中间是 $\mathbf{H}_{c}^{\mathbf{s} \top} \mathbf{H}_{p}^{s}$ ,只有两个矩阵正交，范式才为0，所以这个损失鼓励私有特征和共有特征不相似，正交的时候最小。

总的损失：
$L=L_{T a s k}+\lambda L_{A d v}+\gamma L_{D i f f}$

expriment

在这里插入图片描述
引入两个多任务学习模型作对比MT-CNN和MT-DNN，括号中为多任务比相应的单任务的错误率下降。

可视化

在这里插入图片描述

左图中，y轴表示情感类别（正向和负向），x轴表示输入词语时间步。sp-mtl模型，在输入无情感词语asleep之后，变为负向，而文中模型仍然是正向，正确标注也是正向。

说明sp-mtl模型只是单纯使用不同编码器，并未抽取出共有和私有特征。

Shared-Private Model (SP-MTL):