贴一下汇总贴:论文阅读记录
论文链接:《Does BERT Make Any Sense? Interpretable Word Sense Disambiguation with Contextualized Embeddings》
一、摘要
ElMo(Peaters等人,2018)、Flair NLP (Akbik等人,2018)或BERT (Devlin等人,2019)提供的上下文化单词嵌入(CWE)是NLP中最近的一项重大创新。cwe根据单词各自的上下文提供单词的语义向量表示。它们相对于静态单词嵌入的优势已经在许多任务中显示出来,例如文本分类、序列标记或机器翻译。由于相同单词类型的向量可以根据各自的上下文而变化,因此它们隐含地提供了词义消歧的模型。我们介绍了一种简单而有效的方法,利用最近邻分类对连续小波进行小波分解。我们比较了不同CWE模型对该任务的性能,并可以报告两个标准的WSD基准数据集在当前技术水平之上的改进。我们进一步表明,预先训练的BERT模型能够将多义词放入嵌入空间的不同“意义”区域,而ELMo和Flair NLP似乎不具备这种能力。
二、结论
测试了上下文化单词嵌入的语义属性来解决词义消歧问题。通过放置上下文化向量来测试它们区分特定单词的不同词义的能力,在四个标准的词义消歧基准数据集上测试了我们的假设。
实验表明,一般来说,连续词能捕捉意义,也就是说,词在不同的意义上使用时,被放置在不同的区域。使用BERT预先训练的模型,这种效果看起来最强,其中实例甚至形成集群。这可能会带来未来的研究方向,例如使用聚类技术的无监督词义归纳。
三、BERT
先就这样吧,有空再继续看,和前面几篇差不太多。是在BERT基础上的一个改进。