《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记

1. Motivation

跨语言文本分类(CLTC)是一项具有挑战性的任务,由于缺乏低资源语言中的标记数据,因此变得更加困难。在文中,作者提出了零目标实例加权,一个通用的模型无关的零目标学习框架,通过利用源实例加权来改进CLTC。它在预先训练过的语言模型上添加了一个模块,用于实例权重的相似性计算,从而将每个源实例与目标语言对齐。在训练过程中,该框架利用由实例权重加权的梯度下降来更新参数。

2. Contribution

  1. 引入了零目标实例加权,这是一个简单但有效的、可扩展的框架,以支持零目标CLTC的实例加权迁移学习。
  2. 本文提出的方法在具有7个 不同语言的三个跨语言分类任务上进行评估,结果表明,该方法在单源传输中提高了4%,在多源传输中提高了8%,为利用未标记数据的知识确定了一个有前途的方向

3. Method

在这里插入图片描述
zero-shot的CLTC框架如上图所示。源语言输入和目标语言输入分别为 x s x_s xs x t x_t xt,在训练期间,只有源标签 y s y_s ys可用,其任务是预测目标标签 y t y_t yt。首先应用预先训练好的模型作为编码器对输入进行编码,编码后的表示用 h s h_s hs h t h_t ht表示。该图说明了小批处理中每种语言的四个实例。然后有一个实例加权模块,通过考虑隐藏的表示 h s h_s hs h t h_t ht来为源语言实例赋权重。

3.1 Instance Weighting-based Gradient Descent

Vanilla小批量梯度下降法的定义为:
θ ← θ − α ∑ i = 1 k ▽ θ f ( y i , g θ ( x i ) ) ( 1 ) \theta \leftarrow \theta - \alpha \sum_{i=1}^k \triangledown_\theta f(y_i,g_\theta(x_i))(1) θθαi=1kθf(yi,gθ(xi))(1)
其中 α \alpha α为学习速率, θ \theta θ为要更新的参数, g θ ( x i ) g_\theta(x_i) gθ(xi) x i x_i xi的模型预测, ▽ θ \triangledown \theta θ为偏导数, f ( ⋅ ) f(·) f()为损失函数。修改公式,以包括实例的权重:
θ ← θ − α ∑ i = 1 k w i ⋅ ▽ θ f ( y i , g θ ( x i ) ) ( 2 ) \theta \leftarrow \theta - \alpha \sum_{i=1}^k w_i·\triangledown_\theta f(y_i,g_\theta(x_i)) (2) θθαi=1kwiθf(yi,gθ(xi))(2)
为一个小批中的每个实例分配一个权重 w i w_i wi,并且有一个小批中所有实例的梯度的加权和,然后更新参数 θ \theta θ。它可以很容易地扩展到多种源语言,在这种情况下, x s x_s xs可能是来自多个语言的训练样本。

3.2 Unsupervised Weighting Metrics
每个批处理,为了获得每个源实例 i i i的权重 w i w_i wi,作者遵循基于相似度的方法,定义了一个评分函数来计算当前源实例表示 h i h_i hi和目标实例表示 h j h_j hj之间的分数。然后,对这批 D t D_t Dt中的目标实例集进行一个总和,作为源实例 i i i的最终分数。对于 i ∈ D s i∈D_s iDs
w i = s c o r e ( i , D t ) = ∑ j ∈ D t s c o r e ( i , j ) w_i=score(i,D_t)=\sum_{j∈D_t}score(i,j) wi=score(i,Dt)=jDtscore(i,j)
对这批中的每个 w i w_i wi进行规范化,以确保和是1,它们被插入公示2中。
多种方法来定义评分函数评分 ( i , j ) (i,j) (i,j),余弦评分函数表现最好,因此作者没有使用Euclidean Distance和CORAL Function,在主要实验中报告余弦函数,基于cos弦相似度的评分函数定义为:
s c o r e ( i , j ) = 1 2 ( h i ⋅ h j ∣ ∣ h i ∣ ∣ ∣ ∣ h j ∣ ∣ + 1 ) score(i,j)=\frac{1}{2}(\frac{h_i·h_j}{||h_i|| ||h_j||}+1) score(i,j)=21(hihjhihj+1)

4. Experiment

在意见目标提取、文档分类和情绪分类三个任务中,由于选择了预先训练好的模型,两种基础模型对所有语言都取得了较好的结果。实例加权对几乎所有的目标语言都比基本模型产生了一致的改进。
请添加图片描述

  • 最佳模型XLMR+IW平均比最佳基线高出4.65%,在俄语上比XLMR提高了4%,在其他目标语言上也大幅提高;
    请添加图片描述
  • XLMR+IW的表现超过了基线,并稳步超过了XLMR,在俄罗斯,中国和西班牙方面有令人印象深刻的增长。

请添加图片描述

  • 最佳模型在大多数情况下都显示出相同的趋势。虽然本文方法与模型无关,可以看到从mBERT切换到XLMR所获得的改进结果看出,但当基本模型或嵌入得到改进时,实例加权仍然会有帮助。
  • 考虑到这些观察结果,该框架很简单,但也很有效。最重要的是,它不需要额外的外部数据,并且很容易适应于任何深度模型。

请添加图片描述

  • 通过轻松地扩展到多源语言培训,在所有目标语言中都得到了显著的提升。具体来说,俄语提高了8.1%。
  • 通过易于适应,展示了可扩展性和多语言迁移在零射击学习中是一个很有前途的方向。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值