前言
论文地址:https://aclanthology.org/2020.emnlp-main.586.pdf
前人工作&存在问题
预训练模型包含丰富信息,但问题是:预训练模型中的单词是否还包含了单词独立的、single的、type-level的、lexical的信息?关于这一点的探究工作较少。
本文贡献
本文使用5个词汇任务来探究预训练模型中的词汇信息:
- lexical semantic similarity(LSIM):单语,斯皮尔曼系数,计算单词对的人为评估和cosine相似度之间的相关程度
- word analogy resolution(WA):单语,precision@1指标,计算 给定 wa-wb:wc-x,预测x的精确度
- bilingual lexicon induction(BLI):双语,Mean reciprocal rank指标,计算 给定source单词,map对齐之后,搜索到对应的target单词的分数。map可使用训练得到的vecmap
- cross-lingual information retrieval(CLIR):双语,Mean Average Precision指标,BLI的document级别
- lexical relation prediction(RELP):单语,Micro-averaged F1分数,计算 给定单词对,引入外部分类模型,预测单词间关系(synonymy, antonymy, hypernymy, meronymy, plus no relation))的F1值
回答了4个问题:
- 预训练模型的词汇信息建模能力是否语言独立?任务独立?
- 词汇信息被容纳于特定层参数还是分布在不同位置?
- 预训练模型中导出的静态词嵌入和传统的fastText词嵌入的区别
- 在不同语种上训练的单语预训练模型对于不同语种中语义相似的单词,是否学到了相似的表示?
具体方法
从PLM中抽取单词向量的策略如下,考虑:
- 单语PLM还是multilingual PLM
- 对于一个word,使用M个不同的句子,对于每一个句子,通过token embedding的平均得到上下文的word embedding,再对M个word embedding做平均。M = 1 还是 M > 1
- 平均时是否加入[CLS][SEP] token embedding
- 平均不同层,还是取单层的output
具体实验
Q1\Q2\Q3+抽取策略结论
结论总结1(针对“具体实验”中抽取向量的策略):
- 单语PLM的词汇信息更强(MONO VS MBERT)
- PLM结合了丰富上下文的词汇信息更有用(ISO VS AOC);结合较少的上下文就可以得到有用的词汇信息了(AOC-10 VS AOC-100)
- special token作用不大(NOSPEC VS WITHCLS VS ALL)
- 取低层做平均得到更有用的词汇信息(n<=…)
结论总结2(针对Q1\Q2\Q3):
- Q1:语言独立?任务独立?: 虽然总体来说MONO > MULTI; AOC > ISO; NOSPEC > ALL, WITHCLS,但是对于不同的语言、不同的任务,需要采取不同的抽取单词向量的策略,才能得到最好的词汇信息建模表现
- Q2:特定层参数?分不同位置?:分不同位置,词汇信息集中在低层
- Q3:预训练模型?FastText?:对于单语的任务(LSIM\WA\RELP)预训练模型相对更好,对于双语的任务(需要vecmap)FastText更好
Q4+层之间相似度
结论总结3:
- Q4: 单语PLM也为跨语种单词对学到了相似的表示;表示的相似度取决于语种相似度(不同语种是近似同构关系);
- 相邻层相似
问题
- 词汇信息对于UNMT有什么直接作用?
- 能否为不同语种各自训练单个预训练模型(lexion信息更强),同时加入显式的cross-lingual对齐方式,尽可能对齐到同一向量空间,用这两个预训练模型分别对encoder和decoder做初始化?