NLP算法中的Transformer/BERT知识点和对该领域理解

本文深入探讨Transformer的Attention机制与BERT模型,包括它们的起源论文、源码实现、面试常见问题及理解难点。BERT通过Transformer的Self Attention实现了深度双向语义理解,并在NLP任务中取得SOTA成果。同时,文章分析了BERT的预训练任务、学习率策略、权重共享等关键点,以及与XLNet、ALBERT等后续模型的对比。
摘要由CSDN通过智能技术生成

有向图称为朴素贝叶斯,无向图称为逻辑回归。
Attention机制,适合于从众多任务中选取重点关注的任务。其中Self Attention机制介绍的论文中All Attention is your need是经典。基于此,transformer和bert等模型被发明,在众多NLP任务中取得了SOTA成绩。
一、首先需要从论文中获取作者的观点,作者在此推荐2篇论文:
1、Transformer
Transformer-Attention is ALL Your Need
2、bert
bert-Pre-training of Deep Bidirectional Transformers for Language Understanding
二、源码
transformer和bert的tf实现和pytorch实现在网上有很多,自己下载,参照论文进行精读。
三、面试八股文
此部分知识需要先记住,结合论文和代码精读,反复记忆,相辅相成。
下面参考网上各路大神的面经梳理一份,以飨读者朋友:
1、为什么BERT在第一句前会加一个[CLS]标志?
A:BERT在第一句前会加一个[CLS]标志,最后一层该位对应向量可以作为整句话的语义表示,从而用于下游的分类任务等。为什么选它呢,因为与文本中已有的其它词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息,从而更好的表示整句话的语义
具体来说,self-attention是用文本中的其它词来增强目标词的语义表示,但是目标词本身的语义还是会占主要部分的,因此,经过BERT的12层,每次词的embedding融合了所有词的信息,可以去

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值