一起读论文 | 为什么BERT会在许多NLP任务中表现得很好?

本文是关于BERT模型的研究综述,探讨BERT学习到的语法、语义和世界知识,以及其内部运作机制。研究发现,BERT的语境化嵌入、分层结构和自注意力机制有助于其在NLP任务中的优秀表现,但仍有局限性和未来研究方向。
摘要由CSDN通过智能技术生成

导读:今天给大家解读一篇关于BERT模型研究的综述类论文《A Primer in BERTology: What we know about how BERT works》。基于Transformer的模型已经被证实可以有效地处理从序列标记到问题解答等不同类型的NLP任务,其中一种称为BERT的衍生模型得到了广泛使用。但是,我们对其内部运作知之甚少。这篇论文把围绕BERT进行的相关研究工作定义为BERTology。在这个框架下,对BERT进行了较为详细的分析,旨在尝试回答一些有关BERT为什么在这么多NLP任务中表现良好的问题。论文的内容包括:BERT学习到的知识的类型、知识被表示在什么位置、BERT是如何学习知识的以及研究人员提出的改进BERT的方法等。

点评:这是一篇难得的关于BERT的研究综述论文,围绕以上内容概述了一些最新的BERT研究成果及结论,还讨论了截止目前研究的局限性及未来研究方向,推荐给大家。因此,这期《一起读论文》去粗取精,仅保留重要的结论信息,供大家参考学习。

研究背景及动机

自2017年被提出以来,Transformer模型因其出色的并行化及长范围依赖的建模能力,已经暴风雨般地席卷了NLP领域。其中,最知名的衍生模型就是BERT。在许多基准任务中,BERT取得了当前最优的结果。但是,关于BERT,研究人员清楚的是它表现非常地好,却不清楚为什么它能表示得那么好。

因此,本文概述了截至目前BERT学习到了什么,重点关注尚未解决的问题。论文的主要内容包括:BERT学习到的知识的类型、知识被表示在什么位置、BERT是如何学习知识的以及研究人员提出的改进BERT的方法等。本文也是根据这些内容来组织的。

研究内容

BERT Embeddings

相比较word2vec、GloVe等传统的静态嵌入 (embeddings),BERT的表征 (representations) 是根据上下文而随时变化的,即每个输入的字符被表示成一个依赖于在该字符出现位置的特定的上下文的向量。

  1. BERT的语境化嵌入 (contextualized embeddings) 能够形成与词义相对应的清晰明了的聚类,证实了分布式假设对这些表征是成立的。但是,对于同样的词,其表征也会有所不同,这取决于该词在句中出现的位置。
  2. 越靠后的BERT层能够输出更多的特定上下文的表征。

BERT学习到了哪些知识?

1. 语法知识
  1. BERT表示是分层的,而不是线性的,即除了单词顺序信息之外,还有类似于语法树的结构;
  2. BERT嵌入能对有关词性标注、句法块和角色等信息进行编码。 但是,BERT的语法知识是不完整的;
  3. 语法结构不是直接在自注意力权重中进行编码,但是可以对这些权重进行转换以反映语法结构;
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值