Cross-Lingual text Classification with Minimal Resources by Transferring a Sparse Teacher

最新推荐文章于 2024-06-24 11:14:21 发布

panzhong171

最新推荐文章于 2024-06-24 11:14:21 发布

阅读量217

点赞数

分类专栏： # cross-lingual 文章标签：跨语言文本分类种子单词权重转移教师-学生模型资源限制

本文链接：https://blog.csdn.net/panzhong171/article/details/109029508

版权

1 篇文章 0 订阅

订阅专栏

https://arxiv.org/pdf/2010.02562.pd

$\color{blue}{已标注}$ 的源文档 $D_S$ + $\color{blue}{未标注}$ 的目标文档 $D_T$ + 不超过 $B$ 个源单词的翻译的单词，
- 去训练一个分类器，
当从目标语言 $L_T$ 中拿出一个没有见过的测试样本文档 $x_i^T$ ，可区分它的类别。

CLTS 从源语言 $L_S$ 中提取最重要的 $B$ 个种子单词 seed words，
CLTS 将 seed words 和它们的 weights 从 $L_S$ 转移到 $L_T$ ，来初始化 $L_T$ 中的一个分类器，
将上述的分类器作为一个 teacher，CLTS 还需要训练一个分类器作为一个 student，这个 student 使用目标文档中的 seed words 和它们的上下文 context 来作预测。

$F i g . 总过程图$

源语言 $L_S$ 中的 $\color{blue}{已标注}$ 文档被分成了 $K$ 个类别（如图示假设有 3 个类别， $K = 3$ ），然后 CLTS 在每个类别中自动抽取（extract）种子单词（seed words）形成一个集合 $G_k^S$ （其中 $k=1,2,3,\cdots,K$ ）。

$F i g . 概念图$

准确地说，用 $\color{blue}{已标注}$ 的文档 $D_S$ 训练一个权值矩阵 $\in R^{K\times |V_S|}$ ，CLTS从这个权值矩阵中抽取 seed words。

现在给定一个源 $\color{blue}{已标注}$ 文档 $x_i^S$ 和它的 bag-of-words 编码 $h_i^S \in R^{|V_S|}$ 。
- 其中 $V_S|$ 表示的是源语言词汇表的数量（长度）。
分类器可以通过以下公式计算概率 $p_i$ ，借此公式可以得知这个 $\color{blue}{已标注}$ 文档被分类器学习归为哪一类。
- $p_i=(p_i^1,p_i^2,\cdots,p_i^K)=softmax(W_{[K\times |V_S|]}{h_i}_{[|V_S|\times1]})$ ，下标是维度的说明。
CLTS 在抽取某个类别 $G_k^S$ 的某个种子单词 seed words （可记作 $v_c \in V_S$ ）时，依据以下规则：
- 若权值矩阵中的 对应该第 $k$ 类别的行 中权值 $W_{kc}$ 大于 0，则 CLTS 会选取它。
- 即 $G_k^S=\{v_c^S|W_{kc}>0\}$
  - 可以看一下 总过程图 中的左半部分 $\hat{W}$ 中 $\color{green}{POS}$ 行对应的 perfect 加以理解。

$\color{red}{Question?}$
- 若一行中存在多个权值为正值，该如何选取 seed words？
- $G^S=G_1^S \cup G_2^S \cdots \cup G_K^S$ 集合的元素可能多于 B 个，此时该如何抉择？

对于源语言的 $G^S$ 中的 $B$ 个 seed words，将其翻译为目标语言 $G^T$ 的 seed words。
- 即有一个 translation pair $v^S,v^T)$ 。
注意整列权值均要转移（参考 总过程图）。
- $\hat{Z}_{k, v^{S}}=\hat{W}_{k, v^{T}}, \forall k \in \{1,2,3,\cdots,K\}$

$F i g . 总过程图$

此时构建出了一个新的分类器，在目标语言中用一个 $\color{blue}{未标注}$ 的测试样本文档 $x_j^T$ 进行测试，得到 $q_j$ ：
- $q_j=(q_j^1,q_j^2,\cdots,q_j^K)$ ，可以得知这个 $\color{blue}{未标注}$ 的文档被分类器学习归为哪一类。
- 其中 $q_{j}^{k}=\frac{\exp \left(\hat{z}_{k}^{\top} h_{j}^{T}\right)}{\sum_{k^{\prime}} \exp \left(\hat{z}_{k^{\prime}}^{\top} h_{j}^{T}\right)}$ ， $h_j^T \in R^{|V_T|}$ 是 $x_j^T$ 的 bag-of-words 编码。
- $\hat{z}_{k}$ 是 $\hat{Z}$ 的第 $k$ 行，是个向量，后面经过了转置，且 $\hat{Z}$ 的每一列 非seed words 值都是 0（这一列为零向量）。

$\color{red}{Question?}$
- 由于 被转移翻译的 seed words 规模较小，可能存在 未捕获 到在 目标语言 中 较为显著的特征。
- 例如，参考 总过程图，被转移翻译的 seed words（如“parfait”这个词）可能和其他词共同出现，这些 共同出现 的词有 较为显著的特征，对任务有帮助，但其在 $\hat{Z}$ 中值为 0。
- 此时我们该如何解决这个问题，如何处理这些词呢？
$\color{blue}{Answer.}$
- 此时该文拓展了 monolingual weakly-supervised co-training 的方法。
- 用翻译后的 seed words 的 学习器 作为一个 teacher 去训练之后的 student。