作者提出了一个multi-view encoder-classifier (MVEC)的情感分类模型,在无监督下只用两个语言的单语语料和源语言的标签。利用无监督机器翻译 (UMT)的encoder-decoder架构去约束和改善shared latent space。
-
Methodology
-
问题定义
单语文本数据 { D s r c , D s r c } \left\{D_{src},D_{src}\right\} {Dsrc,Dsrc} 和源语言子集 { D s r c L , y s r c L } \left\{D^L_{src},y^L_{src}\right\} {DsrcL,ysrcL} , y s r c L y^L_{src} ysrcL 是分类标签向量, D s r c L ⊂ D s r c D^L_{src}\subset D_{src} DsrcL⊂Dsrc
-
模型总架构
模型由三部分组成:encoder-decoder、language discriminator、classifier。
引入单语self-reconstruction loss 、跨语言back-translation reconstruction loss和分类loss一起。将self-reconstruction loss简化为withindomain loss。back-translation reconstruction loss 为cross-domain loss。
尽管UMT的encoder可以为句子/文档生成一个latent representation,但是两个语言之间还有语义的gap。通过一个language discriminator可以产生更细粒度的latent representation,改善上述问题。
-
Encoder-Decoder(本文都是transformer)
是来自某个语言文档的n个单词, l ∈ { s r c , t g t } l\in\left\{src,tgt \right \} l∈{src,tgt}
编码器 e ( x ( l ) ) e_(x^{(l)}) e(x(l)) 通过x的词向量,产生n个hidden states作为shared latent space中latent representation
Z ( l ) Z^{(l)} Z(l) 作为输入 ,解码器 d ( Z ( l ) ) d(Z^{(l)}) d(Z(l)) 产生输出序列
为了提升编码器-解码器的鲁棒性,利用Denoising Autoencoders (DAE) 将被破坏的输入复原。
有三种加入噪声的方法:shuffle、dropout、replacement by special words(本文用的方法看原文吧)。值得注意的是DAE只使用在未标记的数据上,用来训练编码器-解码器和判别器。标记的数据保持原样for all components training。用 G ( . ) G(.) G(.) 不表示随机噪声模型, G ( x ( l ) ) G(x^{(l)}) G(x(l))随机产生噪音版本的 x ( l ) x^(l) x(l)
为了将编码器-解码器合并成regularization components,引入了within-domain 和 cross domain 目标函数。
within-domain目的是将文档从带噪声的版本复原
cross domain目的是训练模型将输入文档翻译成另一个语言。
4. 语言判别器
当编码器产生的输入是language-invariant时,跨语言分类器效果很好。因此,作者希望编码器可以将两种语言的文档映射到共享的特征空间。因此,作者引入了一个语言判别器,它是一个有两个隐藏层和一个softmax层的前馈神经网络,去通过编码器的输出去判定语言。最小化下面的交叉熵损失函数。
同时,训练编码器去“欺骗”判别器:
-
多视角分类器
作者考虑了两个输入的视角(1)编码后的源语言的标记文档(2)编码后的通过目标语言回译成的源语言文档。
目标是训练一个分类器预测的标签和gt一致,同时鼓励两个视角的预测分布越相近越好
-
-
最终的目标函数:
-
模型图和算法