Transformer的各个块(bottleneck,FFN..)

  • bottleneck
    将信息压缩再放大的神经网络结构,可以有效降低模型参数量
    在这里插入图片描述

  • 左边是对输入进行常规卷积,右边是对输入先进行PW(Pointwise_Convolution,可参考我的上一篇博客),之后用小卷积核进行特征提取,最后同样用PW升维。两边的输出形状一致,但是右边具有更小的参数量

  • 残差网络加上bottleneck,可以训练更小的参数量、更深的模型
    在这里插入图片描述

  • 其中两个1X1fliter分别用于降低和升高特征维度,主要目的是为了减少参数的数量,从而减少计算量,且在降维之后可以更加有效、直观地进行数据的训练和特征提取,对比如下图所示。

在这里插入图片描述



  1. FFN
    在这里插入图片描述
    为什么需要VKQ三个矩阵,直接用输入的特征进行self-attention不可以吗?如果非要用,为什么不是四个五个,而是三个呢?
  1. 三个矩阵将原始输入往不同的向量空间进行投影,如果直接用输入的feature做self-attention和加权的话,其实还是在feature空间做变换(因为整个过程都是矩阵乘法),基本没有可学习的余地,引入三个矩阵后,增大了学习参数,使得学习出来的变换空间更加的通用。
  2. Q(query)代表自身的期望(表示了对哪种feature感兴趣),
    K(key)代表自己是哪种feature,因为别人也要进行self-attention,
    V(value)是给自己打个分,用于后面的加权,其实这个可以不要,直接用输入的feature进行加权,

待续…

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值