Transformer

最新推荐文章于 2024-07-18 14:22:38 发布

二月的夕雀

最新推荐文章于 2024-07-18 14:22:38 发布

阅读量620

点赞数 6

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54407673/article/details/139091959

版权

1、AAGCN

在AAGCN中，下面的图用到了Self-Attention注意力机制。Self-Attention自注意力机制是Transformer中的一部分，因此本次需要学习一下Transformer模块。

2、Self-Attention

超强动画，一步一步深入浅出解释Transformer原理！_哔哩哔哩_bilibili

Transformer常用于语言识别、语言生成等语言方面相关的处理。Self-Attention允许模型将输入中的每个单词与输入中的其他单词关联起来。这里我们输入英文句子：“Hi how are you” ，来进行举例说明。

（1）Linear（全连接）

首先将单词输入到3个全连接层，得到3个相应的向量数据（Query是查询向量、Key是键向量、Value值向量）。在AAGCN中：Query--- $\theta$ k ，Key--- $\varphi$ k ，Value---Cin×T×N

（2）MatMul（矩阵乘法）

注：上图中的query和key表示的矩阵是概念性的，与真实的矩阵大小有差别。

这里的按照每个单词有3个数据的索引，得到的Q和K、 $K^{T}$ 应该如下：

Q和K：

$K^{T}$ ：

由Q× $K^{T}$ 得到Scorces为 4×4 。

Sorce分数矩阵确定了每个单词应该如何关注其他单词，分数越高，关注度越高。

（3）Scale（归一化）

这样可以使梯度更稳定，因为乘法可能产生爆炸效果。

（4）Softmax（激活函数）

将数据控制在0-1之间，较高的得分会得到增强，而较低的得分会被抑制。

（5） MatMul（矩阵乘法）

（6）Concat（矩阵连接）

（7）linear（全连接）

3、Transformer总体架构

首先进行编码器（2.Encoder block），得到对应的矩阵数据。对于解码器（3.Decoder block），将矩阵数据和由解码器产生的数据作为输入，得到下一步的输出，重复进行，直到结束。

“hi how are you” ---->"嗨你好"

E_date = [] 编码器输出

D_data = [] 解码器输出

inputs --->E_data 由输入得到编码矩阵

def output_Probabilitires（E_data ， D_data）有解码器递归输出结果

outputs = D_data + E_data

output_Probabilitires（E_data，outputs）

二月的夕雀

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Transformer

首先进行编码器（2.Encoder block），得到对应的矩阵数据。对于解码器（3.Decoder block），将矩阵数据和由解码器产生的数据作为输入，得到下一步的输出，重复进行，直到结束。首先将单词输入到3个全连接层，得到3个相应的向量数据（Query是查询向量、Key是键向量、Value值向量）。注：上图中的query和key表示的矩阵是概念性的，与真实的矩阵大小有差别。将数据控制在0-1之间，较高的得分会得到增强，而较低的得分会被抑制。这里的按照每个单词有3个数据的索引，得到的Q和K、
复制链接

扫一扫

二月的夕雀 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

140万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

340: 积分

138: 粉丝

208: 获赞

6: 评论

230: 收藏

私信

关注

热门文章

最新评论

Mamba
CSDN-Ada助手: 恭喜您发布第12篇博客《Mamba》！您的持续创作精彩纷呈，让读者们享受到了无限的阅读乐趣。希望您能继续保持写作的热情和创造力，不断挑战自我，探索更多新颖的主题和观点。期待您的下一篇作品，相信您会取得更大的进步和成就。加油！
pyskl 骨架动作识别（手势识别）
m0_74397345: 请问有更加详细数说明吗
pyskl目录讲解
CSDN-Ada助手: 恭喜您发布第四篇博客“pyskl目录讲解”！持续创作是非常了不起的事情，您的努力和热情让读者受益良多。接下来，我建议您可以考虑深入探讨pyskl目录的应用场景，或者分享一些实际案例，让读者更好地理解和运用这个工具。期待您的下一篇作品！祝您越来越好！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
CNN（卷积神经网路）个人理解
CSDN-Ada助手: 恭喜您写了第三篇博客，标题为“CNN（卷积神经网络）个人理解”！阅读您的博客，我对CNN的理解有了更深入的认识，感谢您分享这些知识。希望您能继续坚持创作，分享更多关于神经网络和深度学习的内容。下一步的创作建议是可以结合实际案例或者代码展示，让读者更直观地了解CNN的应用和实现过程。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
pytorch学习中 “ 手写数字识别 ” 问题
CSDN-Ada助手: 非常棒的博文！你对解决手写数字识别问题的方法进行了详细的介绍，让读者可以按照你提供的路径进行操作。我很期待你的下一篇博文！除了你提到的解决方法，还有一些与手写数字识别相关的扩展知识和技能，或许可以帮助到你。首先，你可以了解一下卷积神经网络（Convolutional Neural Networks，CNN）的原理和应用，因为它在图像识别领域有着广泛的应用。其次，你可以学习一下数据增强（Data Augmentation）的方法，通过对训练数据进行一些变换和扩充，可以提高模型的泛化能力。最后，你还可以尝试使用其他的深度学习框架，比如TensorFlow或Keras，来进行手写数字识别的实践。希望我的建议对你有所帮助，继续努力创作吧！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。