Adversarial Multi-task Learning for Text Classification-阅读笔记

Adversarial Multi-task Learning for Text Classification

MTL中,通过共享网络层,以期望共享层提取与任务无关的特征,实际过程中可能会包含特定任务的特征或者无关的噪音。

基于此,文章提出一个对抗的MTL框架,减少共有特种和私有特征之间的干扰。作者通过在16个不同分类任务上证明其方法可用性,同时,共有特征可以作为知识迁移到新的任务上。

主要贡献

  1. 提出的新模型以更精确的方式划分任务特定(私有)空间和共享空间,而非粗略地共享参数。
  2. 作者将原始的二元对抗性训练扩展到多类,这不仅使多个任务可以联合训练,而且允许使用未标记数据(半监督的学习)。
  3. 作者将多个任务之间的共享知识压缩到一个现成的神经层,这可以很容易地迁移到新的任务中(模型具有较好的可迁移性)。

作者举例:

The infantile cart is simple and easy to use.
This kind of humour is
infantile and boring.

两句话中,单词“infantile”在第一句话中表示中性情感,在第二句表示消极情感, 在两种情感分类任务中,“***infantile”***会被放在共享空间,导致将第一句话分类为消极情感。

为了解决这个问题,本文通过引入对抗训练和正交约束分离共享和私有空间。对抗训练用于确保共享空间只包含共有的信息,正交约束用来消除共享和特有空间冗余的特征。

Adversarial Multi-task Learning

在这里插入图片描述

黄色lstm用于提取共有特征,灰色提取任务的私有特征。

  • 任务k的公有特征
    s t k = L S T M ( x t , s t − 1 k , θ s ) \mathbf{s}_{t}^{k}=\mathbf{L} \mathbf{S} \mathbf{T} \mathbf{M}\left(x_{t}, \mathbf{s}_{t-1}^{k}, \theta_{s}\right) stk=LSTM(xt,st1k,θs)

  • 任务k私有的特征
    h t k = L S T M ( x t , h t − 1 m , θ k ) \mathbf{h}_{t}^{k}=\mathbf{L} \mathbf{S} \mathbf{T} \mathbf{M}\left(x_{t}, \mathbf{h}_{t-1}^{m}, \theta_{k}\right) htk=LSTM(xt,ht1m,θk)

问题1:如何保证共享编码器提取的是公有特征?

Adversarial Network

对于一个判别模型D,和一个生成模型G。

生成模型G:共享的编码器,这里是LSTM。 h t = L S T M ( h t − 1 , x t , θ p ) \mathbf{h}_{t}=\mathbf{L} \mathbf{S} \mathbf{T} \mathbf{M}\left(\mathbf{h}_{t-1}, \mathbf{x}_{t}, \theta_{p}\right) ht=LSTM(ht1,xt,θp)

Task Discriminator D: 输入是共享的特征,目标是判断输入语句来自于哪一个任务。

引入对抗损失
L A d v = min ⁡ θ s ( λ max ⁡ θ D ( ∑ k = 1 K ∑ i = 1 N k d i k log ⁡ [ D ( E ( x k ) ) ] ) ) L_{A d v}=\min _{\theta_{s}}\left(\lambda \max _{\theta_{D}}\left(\sum_{k=1}^{K} \sum_{i=1}^{N_{k}} d_{i}^{k} \log \left[D\left(E\left(\mathbf{x}^{k}\right)\right)\right]\right)\right) LAdv=θsmin(λθDmax(k=1Ki=1Nkdiklog[D(E(xk))]))
其中 d i k d_i^k dik表示第i个样本是否属于任务k。该损失函数优化LSTM的参数来误导判别器,同时优化判别器参数尽量分类出语句属于哪一个任务。

Semi-supervised Learning Multi-task Learning

从上面的公式可以看出,训练过程并未用到样本的label,所以可以使用两个域的无标签的数据来训练对抗网络。

问题2:如何保证私有编码器提取的是私有特征?

Orthogonality Constraints

L d i f f = ∑ k = 1 K ∥ S k ⊤ H k ∥ F 2 L_{diff}=\sum_{k=1}^{K} \|{{S}^{k}}^{\top}H^k\|^2_F Ldiff=k=1KSkHkF2

∥ ⋅ ∥ F 2 \|\cdot\|_{F}^{2} F2表示矩阵范式,而中间是 H c s ⊤ H p s \mathbf{H}_{c}^{\mathbf{s} \top} \mathbf{H}_{p}^{s} HcsHps,只有两个矩阵正交,范式才为0,所以这个损失鼓励私有特征和共有特征不相似,正交的时候最小。

总的损失:
L = L T a s k + λ L A d v + γ L D i f f L=L_{T a s k}+\lambda L_{A d v}+\gamma L_{D i f f} L=LTask+λLAdv+γLDiff

expriment

在这里插入图片描述
引入两个多任务学习模型作对比MT-CNN和MT-DNN,括号中为多任务比相应的单任务的错误率下降。

可视化

在这里插入图片描述

左图中,y轴表示情感类别(正向和负向),x轴表示输入词语时间步。sp-mtl模型,在输入无情感词语asleep之后,变为负向,而文中模型仍然是正向,正确标注也是正向。

说明sp-mtl模型只是单纯使用不同编码器,并未抽取出共有和私有特征。

Shared-Private Model (SP-MTL):
在这里插入图片描述

作者以此说明asleep为其他任务带入的噪音,sp-mtl模型被此噪音带偏了。参考前文例子。

来源:Adversarial Multi-task Learning for Text Classification

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百川AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值