从Attention到Transformer再到bert的理解

最新推荐文章于 2024-07-08 21:25:17 发布

HxShine

最新推荐文章于 2024-07-08 21:25:17 发布

阅读量713

点赞数

分类专栏：算法学习总结 nlp

本文链接：https://blog.csdn.net/qq_16949707/article/details/105711431

版权

97 篇文章 3 订阅

订阅专栏

26 篇文章 1 订阅

订阅专栏

在这里插入图片描述

[1] Lin, Zhouhan, et al. ”A structured self-attentive sentence embedding.” arXiv preprint arXiv:1703.03130 (2017).

QKV：其实也是一个attention，求出来的还是权重，只是计算的方式不同:

在这里插入图片描述
就是多个attention组合在一起。

Young, Tom, et al. ”Recent trends in deep learning based natural language processing.” ieee Computational intelligenCe
magazine 13.3 (2018): 55-75.

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

用位置编码解决rnn的时序问题
相对于GPT，是双向的，利用了上下文的信息
利用了attention+位置编码，解决了lstm或者说rnn抽取文本特征的能力，既能提取盖个单词与其他单词的相互关系的特征，果然是交叉特征比较重要啊，又能提取时序的特征。

自然语言处理中的Transformer和BERT https://zhuanlan.zhihu.com/p/53099098

关注

专栏目录