【学习笔记】Transformer

ColinCooper

已于 2023-04-18 10:24:05 修改

阅读量225

点赞数 1

分类专栏：学习笔记文章标签：深度学习 transformer 人工智能

于 2023-04-18 10:23:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/colincooper/article/details/130214111

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

前言
一、传统RNN架构痛点问题
二、Attention机制
三、BERT
总结

前言

Transformer的提出，有效解决了传统RNN无法并行计算的痛点。改模型出自论文“Attention is all you need”，模型完全基于注意力机制，在CV和NLP上较CNN RNN效果更优。尽管当前最新模型timesnet可能更强，但仍值得研究，并做改进创新。

一、传统RNN架构痛点问题

针对时序数据，RNN输入需上一时间步的中间结果，类似于串联，无法做并行计算。而自注意力机制提出，可以并行计算，输出结果同时求得。
word2vec通过词向量表达文本特征，但是训练好后，语义无法更改，无法兼顾全文语境。为此，BERT能解决语境不同含义不同的问题。

二、Attention机制

1.Self-Attention

encoer-decoder结构中，注意力不同，对语境理解不同，提取特征则不同。
self-attention
- 计算机通过上下文，根据任务自行判断重点关注哪些特征，方法通过考虑该词与全文词汇的关系，将结合整个语境的关系（关联）融入到最后1个词向量中。
  上述过程也可以是多层（多套）的，理解为多套语境。
- 计算方法
  - 通过3个辅助矩阵提取特征q/k/v，3个矩阵需训练，q代表去查询的权重，k被查询的，v是其最后特征表达。
  - 通过内积（点乘）表示向量相关性，相关性大、向量夹角小、内积大。
  - softmax：每个特征求出得分值，经exp映射放大，使得数据差异更大，再归一化。
  - 词x1的q1去与每个词的k求内积，得到分值，即相关性，再基于得分（softmax后的相关性）分配特征量v，词x1与每个词对应的v值求和，即该词最终特征表达。
  - q与k维度不断增大，相乘得分也越大，为避免维度增大对得分影响，除以根号下dk

2.Multi-Attention

类似于CNN中多个卷积核，提取出不同特征。一般8层多头即可。
多头（层）得出多种表达z，拼接在一起，再全连接降维。

3.位置信息表达

做整个序列的加权，对位置并不敏感，因此加入位置编码。不用传统独热编码，引入正余弦周期表达位置信息

4.残差连接和归一化

在这里插入图片描述

5.Mask机制

训练模型，按一定概率遮住部分特征，预测

6.整体架构

在这里插入图片描述

三、BERT

1.含义

实际是Transformer中的encoder部分

2.训练方法

方法1：随机mask掉词汇，模型预测遮掉的词
方法2：预测句子连接

3.BERT模型使用

输入文章、问题，给出答案位置。
单独训练辅助向量，即答案开始位置、结束位置。

总结

transformer最大优势是考虑上下文，且并行计算。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】Transformer

transformer简介
复制链接

扫一扫

专栏目录

ColinCooper CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

33万+: 周排名

113万+: 总排名

4598: 访问

: 等级

112: 积分

6: 粉丝

10: 获赞

2: 评论

56: 收藏

私信

关注

热门文章

分类专栏

最新评论

【深度学习】CV_基于CNN的图像分类模型_代码逐行注释解析
SCI3: 有数据集吗
【Pytorch】《Pytorch深度学习实践》学习笔记_02_线性模型
CSDN-Ada助手: 非常感谢作者分享这篇关于Pytorch深度学习实践的学习笔记，标题也十分具有吸引力。您的文章内容详实、逻辑清晰，阅读起来非常流畅。在这里，我要祝贺您的第四篇博客顺利完成，希望您能够持续创作，为大家带来更多优质的内容。下一步，我个人认为可以考虑分享一些实战案例，结合具体的应用场景，让读者更好地理解和应用所学到的知识。期待您的下一篇文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
【文献笔记】Deep Learning_LeCun_深度之眼
CSDN-Ada助手: 恭喜您写出了第四篇博客！标题《Deep Learning_LeCun_深度之眼》引人入胜，相信内容也一定不会让读者失望。建议下一步可以探讨一些具体的应用案例，让读者更好地理解深度学习在实际中的应用场景。期待您更多的精彩文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。