自然语言理解(Natural Language Understanding, 简称NLU)任务是帮助机器理解自然语言的任务的总称,与自然语言生成(Natural Language Generation,简称NLG) 合称为自然语言处理(Natural Language Processing,简称NLP)。NLU任务覆盖文本分类、信息抽取、情感分类、关系抽取、时间抽取等子任务,是各类信息处理系统,如信息管理系统、推荐系统、搜索引擎的重要基础组件。
思考:NLU和NLG,是否有点类似“矛 《-》盾”, 借助深度学习技术,相互攻击。如果没有外部标注数据(图谱知识)干预,是否会“自相矛盾”? =〉所以必须引入外部知识,做监督训练或强化学习。
近几年NLP大模型发展可谓是如火如荼的进行。它的快速发展,离不开这些核心技术(Transformer,Attention,BERT和GPT)的演进。本文总结了这些技术相关的学习资料及要点摘录,方便对大模型做更深刻的学习和理解。
- BERT,Transformer,Attention 关系总览
【精华】BERT,Transformer,Attention(上)https://zhuanlan.zhihu.com/p/446491266
【精华】BERT,Transformer,Attention(中)https://zhuanlan.zhihu.com/p/446625508
【精华】BERT,Transformer,Attention(下)https://zhuanlan.zhihu.com/p/447306812
Self Attention & Multi-head Attention
1. Self Attention
- constant path length & variable-sized perceptive field :任意两个位置(特指远距离)的关联不再需要通过 Hierarchical perceptive field 的方式,它的 perceptive field 是整个句子,所以任意两个位置建立关联是常数时间内的。
- parallelize : 没有了递归的限制,就像 CNN 一样可以在每一层内实现并行。
Self-Attention结构
2. Multi-head Attention
multi-head attention
(关于Self Attention & Multi-head Attention,会在之后将 Transformer 时再详细叙述的)
五、 总结
为什么 attention 这么优秀?是因为它让模型开窍了,懂得了提纲挈领,学会了融会贯通。
Attention 背后本质的思想就是:在不同的 context 下,focusing 不同的信息。
在很多的应用场景,attention-layer 肩负起了部分 feature-selection,featue-representation 的责任。
优点:参数少,速度快,效果好
六、文章推荐
小白友好 :何之源:完全图解RNN、RNN变体、Seq2Seq、Attention机制
总结到位 :遍地开花的 Attention ,你真的懂吗?
清晰明了 :川陀学者:Attention机制详解(一)——Seq2Seq中的Attention
川陀学者:Attention机制详解(二)——Self-Attention与Transformer
Seq2Seq模型和Attention机制 - machine-learning-notes