NLP算法中的Transformer/BERT知识点和对该领域理解

最新推荐文章于 2024-09-09 16:52:10 发布

lbertj

最新推荐文章于 2024-09-09 16:52:10 发布

阅读量986

点赞数

分类专栏： NLP 文章标签：算法 transformer bert

本文链接：https://blog.csdn.net/weixin_42419825/article/details/120115281

版权

本文深入探讨Transformer的Attention机制与BERT模型，包括它们的起源论文、源码实现、面试常见问题及理解难点。BERT通过Transformer的Self Attention实现了深度双向语义理解，并在NLP任务中取得SOTA成果。同时，文章分析了BERT的预训练任务、学习率策略、权重共享等关键点，以及与XLNet、ALBERT等后续模型的对比。

摘要由CSDN通过智能技术生成

有向图称为朴素贝叶斯，无向图称为逻辑回归。
Attention机制，适合于从众多任务中选取重点关注的任务。其中Self Attention机制介绍的论文中All Attention is your need是经典。基于此，transformer和bert等模型被发明，在众多NLP任务中取得了SOTA成绩。
一、首先需要从论文中获取作者的观点，作者在此推荐2篇论文：
1、Transformer
Transformer-Attention is ALL Your Need
2、bert
bert-Pre-training of Deep Bidirectional Transformers for Language Understanding
二、源码
transformer和bert的tf实现和pytorch实现在网上有很多，自己下载，参照论文进行精读。
三、面试八股文
此部分知识需要先记住，结合论文和代码精读，反复记忆，相辅相成。
下面参考网上各路大神的面经梳理一份，以飨读者朋友：
1、为什么BERT在第一句前会加一个[CLS]标志?
A：BERT在第一句前会加一个[CLS]标志，最后一层该位对应向量可以作为整句话的语义表示，从而用于下游的分类任务等。为什么选它呢，因为与文本中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。
具体来说，self-attention是用文本中的其它词来增强目标词的语义表示，但是目标词本身的语义还是会占主要部分的，因此，经过BERT的12层，每次词的embedding融合了所有词的信息，可以去