Emerging Cross-lingual Structure in Pretrained Language Models

最新推荐文章于 2024-07-18 16:25:07 发布

我是一个小透明

最新推荐文章于 2024-07-18 16:25:07 发布

阅读量204

点赞数

分类专栏：跨语言文章标签：人工智能 nlp

本文链接：https://blog.csdn.net/weixin_41696015/article/details/114301646

版权

4 篇文章 0 订阅

订阅专栏

探究是什么让跨语言预训练模型有跨语言的能力 Dissecting mBERT/XLM models
- 领域相似性 domain similarity
- 锚点 shared vocabulary (or anchor points)
  
  锚点是在两个语言训练语料中共同出现的相同字符串（identical strings），作为跨语言共享编码器在不同语言中的纽带。
  
  用code-switch的方法做实验，增加锚点
  
  但是最近的研究发现，锚点在训练跨语言表示中起到非常小的作用
- 共享参数 shared parameters
  
  甚至softmax层的参数对模型都有影响，但是和锚点参数（embedding）一样影响不大
- 语言相似性 language similarity
  
  改变上述因素对不相似的语言影响更大

在这里插入图片描述

训练两个单语的bert模型去学习跨语言表达的相似性 Similarity of BERT Models
- Aligning Monolingual BERTs
  
  测量相似性的方法Procrustes

单语词对齐 Word-level alignment

把每个子词当作独立的输入，把所有embedding相加然后平均，每一层得到一个embedding。用muse词表进行监督学习。最后align结果比fasttext好。而且高层的representations比底层好。
双语词对齐 Contextual word-level alignment

we can align contextual representations of monolingual BERT models with a simple
linear mapping and use this approach for crosslingual transfer.

中间层比高层representation alignment更好
Sentence-level alignment

pooling subword representation of sentences at each layer of monolingual BERT.
结论

bert在词级别和句子级别都可以通过简单的orthogonal mapping来align。

与word embedding相似，bert模型在不同语言是相似的，所以为什么仅通过共享权重就足够。
Neural network similarity（没怎么看）
CKA entered kernel alignment; CCA canonical correlation analysis
- 结论
当语言相近时，用相同的模型增加representation的相似性

相反，语言不相近时，相同模型不能增加representation相似性

关注