Transformer的各个块(bottleneck,FFN..)

️luckychen

已于 2022-08-03 09:55:49 修改

阅读量2.7k

点赞数 6

分类专栏： AI 文章标签： transformer 深度学习人工智能

于 2022-07-25 15:50:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/catrtees/article/details/125975494

版权

AI 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

bottleneck
将信息压缩再放大的神经网络结构,可以有效降低模型参数量
左边是对输入进行常规卷积，右边是对输入先进行PW(Pointwise_Convolution，可参考我的上一篇博客)，之后用小卷积核进行特征提取，最后同样用PW升维。两边的输出形状一致，但是右边具有更小的参数量
残差网络加上bottleneck，可以训练更小的参数量、更深的模型
其中两个1X1fliter分别用于降低和升高特征维度，主要目的是为了减少参数的数量，从而减少计算量，且在降维之后可以更加有效、直观地进行数据的训练和特征提取，对比如下图所示。

在这里插入图片描述

FFN —

为什么需要VKQ三个矩阵，直接用输入的特征进行self-attention不可以吗？如果非要用，为什么不是四个五个，而是三个呢？

三个矩阵将原始输入往不同的向量空间进行投影，如果直接用输入的feature做self-attention和加权的话，其实还是在feature空间做变换(因为整个过程都是矩阵乘法)，基本没有可学习的余地，引入三个矩阵后，增大了学习参数，使得学习出来的变换空间更加的通用。
Q(query)代表自身的期望(表示了对哪种feature感兴趣)，
K(key)代表自己是哪种feature，因为别人也要进行self-attention，
V(value)是给自己打个分，用于后面的加权，其实这个可以不要，直接用输入的feature进行加权，

待续…

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Transformer的各个块(bottleneck,FFN..)

6
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。