1.Transformer:Attention Is All You Need

pig不会cv

已于 2023-10-18 10:00:11 修改

阅读量27

点赞数

分类专栏： Attention文献阅读大模型论文文章标签：论文阅读

于 2023-10-17 22:19:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50696252/article/details/133893694

版权

Attention文献阅读同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

大模型论文

3 篇文章 0 订阅

订阅专栏

学习视频：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili

（看了一个小时，后面的positional embedding没看）

Transformer可以用在图像、视频、文本。。。。。

编码器与解码器

编码器encoder：将输入转换为网络可以辨识的向量（每次可以看到完整的输入）

解码器encoder：使用了自回归，一个一个生成文字。即对于一组输入文字，比如（我爱你），可以通过（我爱），生成（你）。即过去时刻的输出，可以当作当前时刻的输入。（每次只能看到前面时刻的输入，不能看到后面的文字）

为什么要用LayerNorm而不用BatchNorm？

BN：每列就是特征，每次让每个mini_batch里面每一列的特征的均值为0，方差为1。在训练时就是算每一个minibatch的均值和方差，然后减去这个均值本身，让其均值最后为0，再除以方差本身，这样方差就为1。 $\lambda \beta$ 都是可学习参数，它们两可以尽量保证均值为0，方差为1。

LN：每行就是样本，让每行（每个样本）对特征的均值为0，方差为1

在NLP，每个样本的长度会变换（语句长度不一样）：

BN在样本变化比较大时，每个minibatch的均值和方差的变化也大。而实际预测时，若遇到一个非常长的、训练集没遇到过的样本，则其均值和方差会不好算。

LN就是算每个样本的均值和方差。实际预测的时候也就是在每个样本里面算均值方差，稳定性会更好。

解码器：

解码器有个Mask，因为解码器每次只能看到t时刻前面的输入，不能看到t时刻后面的文字，所以要用mask把t时刻以后的输入遮住。

Attention

Scaled Dot-Product Attention:

q=k=dk,v=dv

计算时就是让每个qurey和value作内积（向量内积），若两个向量长度相等，则内积值越大，说明两个向量相似度越高。
向量长度long= $(q\times k)\div \sqrt{dk}$
权重=softmax(long)，得到n个非负、和为1的权重
将权重加权到value上，得到输出

其实就是通过两次向量内积得到输出，实际使用时，qkv都是序列

Multi-Head Attention：

其实类似于CNN的输出通道，是可以有多个的

并行地执行注意力函数，产生dv-dimensional输出值。这些被连接并再次投影，产生最终值

Applications of Attention in our Model：

对于self-attention:q、k、v其实是一个东西，就是该序列本身。所以相似度求取时，和自己本身对应的那个序列肯定是1。

Position-wise Feed-Forward Networks（MLP）：

其实就是两层线性层：W1把512投影成2048，因为有残差，W2又把2048投影成512

Transformer的大致流程：

attention把序列的特征抓取出来，作汇聚，而MLP可以把它映射成我们想要的语义空间。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.Transformer:Attention Is All You Need

（看了一个小时，后面的positional embedding没看）
复制链接

扫一扫

专栏目录

pig不会cv CSDN认证博客专家 CSDN认证企业博客

码龄4年

132: 原创

18万+: 周排名

1万+: 总排名

3万+: 访问

: 等级

1982: 积分

507: 粉丝

649: 获赞

12: 评论

556: 收藏

私信

关注

热门文章

分类专栏

最新评论

9.16单词拆分（LC139-M）
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
跟着代码随想录刷Leetcode（python）
CSDN-Ada助手: 非常欢迎看到你在博客中分享了自己的学习经历，这种坚持不懈的精神真的很值得称赞！刷Leetcode对于提升编程能力是非常有效的，相信通过不断地练习和总结，你一定能够取得很大的进步。不过在学习的过程中，除了算法和编程语言的掌握，对于代码的优化、调试技巧和版本控制等知识也是非常重要的。希望你可以在不断刷题的过程中，也多关注一些这些扩展知识和技能，相信对你的成长会有很大的帮助。加油，期待你更多的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
1.数组理论基础
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“1.数组理论基础”听起来非常有趣。您对数组理论的探索让我感到兴奋，这是一个非常重要的主题。在接下来的创作中，我建议您可以进一步深入探讨数组的应用场景和高级技巧，这将为读者提供更多有用的知识。希望您能保持这种持续创作的动力，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
1.1 二分查找（LC704）
CSDN-Ada助手: 恭喜您连续创作了第四篇博客！标题中提到的二分查找题目（LC704）似乎是一个很有挑战性的题目。您通过这篇博客向读者介绍了二分查找的相关知识，非常值得称赞！接下来，我建议您可以考虑在下一篇博客中分享一些关于二分查找的实际应用案例，让读者更深入地理解这个算法的实用性。希望您能继续保持创作的热情，期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
1.2移除元素（LC27）
CSDN-Ada助手: 恭喜您完成了第5篇博客！阅读了您的文章《1.2移除元素（LC27）》，我对您的持续创作精神表示赞赏。您在标题中提到了题目为LC27的移除元素问题，我很期待能够阅读到您对这个问题的深入剖析和解决方法。在下一步的创作中，我建议您可以尝试探索更多相关问题的解决方案，或者对已有解决方案进行优化和改进。同时，您也可以考虑与读者互动，接受他们的建议和意见，以便不断提升自己的写作水平和内容质量。谦虚地说，我相信您的博客会越来越好，期待您带来更多有趣、有深度的文章！继续加油！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。