Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning

作者提出了一个multi-view encoder-classifier (MVEC)的情感分类模型,在无监督下只用两个语言的单语语料和源语言的标签。利用无监督机器翻译 (UMT)的encoder-decoder架构去约束和改善shared latent space。

  • Methodology

    1. 问题定义

      单语文本数据 { D s r c , D s r c } \left\{D_{src},D_{src}\right\} {Dsrc,Dsrc} 和源语言子集 { D s r c L , y s r c L } \left\{D^L_{src},y^L_{src}\right\} {DsrcL,ysrcL} , y s r c L y^L_{src} ysrcL 是分类标签向量, D s r c L ⊂ D s r c D^L_{src}\subset D_{src} DsrcLDsrc

    2. 模型总架构

      模型由三部分组成:encoder-decoder、language discriminator、classifier。

      引入单语self-reconstruction loss 、跨语言back-translation reconstruction loss和分类loss一起。将self-reconstruction loss简化为withindomain loss。back-translation reconstruction loss 为cross-domain loss

      尽管UMT的encoder可以为句子/文档生成一个latent representation,但是两个语言之间还有语义的gap。通过一个language discriminator可以产生更细粒度的latent representation,改善上述问题。

    3. Encoder-Decoder(本文都是transformer)

      是来自某个语言文档的n个单词, l ∈ { s r c , t g t } l\in\left\{src,tgt \right \} l{src,tgt}

      编码器 e ( x ( l ) ) e_(x^{(l)}) e(x(l)) 通过x的词向量,产生n个hidden states作为shared latent space中latent representation

      Z ( l ) Z^{(l)} Z(l) 作为输入 ,解码器 d ( Z ( l ) ) d(Z^{(l)}) d(Z(l)) 产生输出序列

      为了提升编码器-解码器的鲁棒性,利用Denoising Autoencoders (DAE) 将被破坏的输入复原。

      有三种加入噪声的方法:shuffle、dropout、replacement by special words(本文用的方法看原文吧)。值得注意的是DAE只使用在未标记的数据上,用来训练编码器-解码器和判别器。标记的数据保持原样for all components training。用 G ( . ) G(.) G(.) 不表示随机噪声模型, G ( x ( l ) ) G(x^{(l)}) G(x(l))随机产生噪音版本的 x ( l ) x^(l) x(l)

      为了将编码器-解码器合并成regularization components,引入了within-domain 和 cross domain 目标函数。

      within-domain目的是将文档从带噪声的版本复原

      cross domain目的是训练模型将输入文档翻译成另一个语言。

      4. 语言判别器

      当编码器产生的输入是language-invariant时,跨语言分类器效果很好。因此,作者希望编码器可以将两种语言的文档映射到共享的特征空间。因此,作者引入了一个语言判别器,它是一个有两个隐藏层和一个softmax层的前馈神经网络,去通过编码器的输出去判定语言。最小化下面的交叉熵损失函数。

      同时,训练编码器去“欺骗”判别器:

      1. 多视角分类器

        作者考虑了两个输入的视角(1)编码后的源语言的标记文档(2)编码后的通过目标语言回译成的源语言文档。

        目标是训练一个分类器预测的标签和gt一致,同时鼓励两个视角的预测分布越相近越好

​ 最终的目标函数:

  • 模型图和算法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值