【学习】Transformer,Attention,BERT和GPT

自然语言理解(Natural Language Understanding, 简称NLU)任务是帮助机器理解自然语言的任务的总称,与自然语言生成(Natural Language Generation,简称NLG) 合称为自然语言处理(Natural Language Processing,简称NLP)。NLU任务覆盖文本分类、信息抽取、情感分类、关系抽取、时间抽取等子任务,是各类信息处理系统,如信息管理系统、推荐系统、搜索引擎的重要基础组件。

思考:NLU和NLG,是否有点类似“矛 《-》盾”, 借助深度学习技术,相互攻击。如果没有外部标注数据(图谱知识)干预,是否会“自相矛盾”? =〉所以必须引入外部知识,做监督训练或强化学习。

近几年NLP大模型发展可谓是如火如荼的进行。它的快速发展,离不开这些核心技术(Transformer,Attention,BERT和GPT)的演进。本文总结了这些技术相关的学习资料及要点摘录,方便对大模型做更深刻的学习和理解。

  • BERT,Transformer,Attention 关系总览

【精华】BERT,Transformer,Attention(上)https://zhuanlan.zhihu.com/p/446491266

【精华】BERT,Transformer,Attention(中)https://zhuanlan.zhihu.com/p/446625508

【精华】BERT,Transformer,Attention(下)https://zhuanlan.zhihu.com/p/447306812

Self Attention & Multi-head Attention

1. Self Attention

why self attentionicon-default.png?t=N7T8https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzOTU0NTQ0MA%3D%3D%26mid%3D2247491048%26idx%3D1%26sn%3Dceb1cd0fecad478a252b7681ed3231d4%26chksm%3De92920e7de5ea9f1d72335830055ac2ee1d4c71458008e534b57fa4acbdfb3220de0fdc364bc%26scene%3D21%23wechat_redirect

  • constant path length & variable-sized perceptive field :任意两个位置(特指远距离)的关联不再需要通过 Hierarchical perceptive field 的方式,它的 perceptive field 是整个句子,所以任意两个位置建立关联是常数时间内的。
  • parallelize : 没有了递归的限制,就像 CNN 一样可以在每一层内实现并行。

Self-Attention结构

2. Multi-head Attention

multi-head attention

(关于Self Attention & Multi-head Attention,会在之后将 Transformer 时再详细叙述的)

五、 总结

为什么 attention 这么优秀?是因为它让模型开窍了,懂得了提纲挈领,学会了融会贯通。

Attention 背后本质的思想就是:在不同的 context 下,focusing 不同的信息。

在很多的应用场景,attention-layer 肩负起了部分 feature-selection,featue-representation 的责任。

优点:参数少,速度快,效果好

六、文章推荐

小白友好 :何之源:完全图解RNN、RNN变体、Seq2Seq、Attention机制

总结到位 :遍地开花的 Attention ,你真的懂吗?

清晰明了 :川陀学者:Attention机制详解(一)——Seq2Seq中的Attention

川陀学者:Attention机制详解(二)——Self-Attention与Transformer

Seq2Seq模型和Attention机制 - machine-learning-notes

关于QKV :深度学习attention机制中的Q,K,V分别是从哪来的?

如何理解attention中的Q,K,V?

也是总结:张俊林:深度学习中的注意力模型(2017版)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值