[文献阅读]—Probing Pretrained Language Models for Lexical Semantics

最新推荐文章于 2024-04-28 19:46:35 发布

Muasci

最新推荐文章于 2024-04-28 19:46:35 发布

阅读量787

点赞数 1

分类专栏：文献阅读之家文章标签：机器翻译

本文链接：https://blog.csdn.net/jokerxsy/article/details/121577179

版权

文献阅读之家专栏收录该内容

51 篇文章 5 订阅

订阅专栏

该研究通过5个词汇任务考察预训练模型中的词汇信息，包括词义相似度、词类比解决、双语词汇诱导、跨语言信息检索和词汇关系预测。结果表明，预训练模型在词汇信息建模上表现出语言和任务依赖性，词汇信息主要集中在低层参数中。对于单语任务，预训练模型优于传统fastText，而在双语任务中，fastText表现更优。此外，单语预训练模型能为不同语种的语义相似单词学习到相似表示。

摘要由CSDN通过智能技术生成

前言

在这里插入图片描述

论文地址：https://aclanthology.org/2020.emnlp-main.586.pdf

前人工作&存在问题

预训练模型包含丰富信息，但问题是：预训练模型中的单词是否还包含了单词独立的、single的、type-level的、lexical的信息？关于这一点的探究工作较少。

本文贡献

本文使用5个词汇任务来探究预训练模型中的词汇信息：

lexical semantic similarity(LSIM)：单语，斯皮尔曼系数，计算单词对的人为评估和cosine相似度之间的相关程度
word analogy resolution(WA)：单语，precision@1指标，计算给定 wa-wb:wc-x，预测x的精确度
bilingual lexicon induction(BLI)：双语，Mean reciprocal rank指标，计算给定source单词，map对齐之后，搜索到对应的target单词的分数。map可使用训练得到的vecmap
cross-lingual information retrieval(CLIR)：双语，Mean Average Precision指标，BLI的document级别
lexical relation prediction(RELP)：单语，Micro-averaged F1分数，计算给定单词对，引入外部分类模型，预测单词间关系(synonymy, antonymy, hypernymy, meronymy, plus no relation))的F1值

回答了4个问题：

预训练模型的词汇信息建模能力是否语言独立？任务独立？
词汇信息被容纳于特定层参数还是分布在不同位置？
预训练模型中导出的静态词嵌入和传统的fastText词嵌入的区别
在不同语种上训练的单语预训练模型对于不同语种中语义相似的单词，是否学到了相似的表示？

具体方法

从PLM中抽取单词向量的策略如下，考虑：

单语PLM还是multilingual PLM
对于一个word，使用M个不同的句子，对于每一个句子，通过token embedding的平均得到上下文的word embedding，再对M个word embedding做平均。M = 1 还是 M > 1
平均时是否加入[CLS][SEP] token embedding
平均不同层，还是取单层的output

在这里插入图片描述

图1 抽取策略

具体实验

Q1\Q2\Q3+抽取策略结论

结论总结1(针对“具体实验”中抽取向量的策略)：

单语PLM的词汇信息更强(MONO VS MBERT)
PLM结合了丰富上下文的词汇信息更有用(ISO VS AOC)；结合较少的上下文就可以得到有用的词汇信息了(AOC-10 VS AOC-100)
special token作用不大(NOSPEC VS WITHCLS VS ALL)
取低层做平均得到更有用的词汇信息(n<=…)

结论总结2(针对Q1\Q2\Q3):

Q1:语言独立？任务独立？: 虽然总体来说MONO > MULTI; AOC > ISO; NOSPEC > ALL, WITHCLS，但是对于不同的语言、不同的任务，需要采取不同的抽取单词向量的策略，才能得到最好的词汇信息建模表现
Q2:特定层参数？分不同位置？:分不同位置，词汇信息集中在低层
Q3:预训练模型？FastText？:对于单语的任务(LSIM\WA\RELP)预训练模型相对更好，对于双语的任务(需要vecmap)FastText更好

在这里插入图片描述