【科研】浅学Cross-attention?

Cross-Attention in Transformer Architecture 

最近,CrossViT让我所有思考,这种能过够跨膜态的模型构建?浅学一下吧!


目录

1.Cross attention概念

2.Cross-attention vs Self-attention 

3.Cross-attention算法 

4.Cross-Attention 案例-感知器IO



1.Cross attention概念

  • Transformer架构中混合两种不同嵌入序列的注意机制
  • 两个序列必须具有相同的维度
  • 两个序列可以是不同的模式形态(如:文本、声音、图像)
  • 一个序列作为输入的Q,定义了输出的序列长度,另一个序列提供输入的K&V
  • ps:不知道QKV的先去普及一下Attention的基础、更专业的学习资源here吧!

2.Cross-attention vs Self-attention 

Cross-attention的输入来自不同的序列,Self-attention的输入来自同序列,也就是所谓的输入不同,但是除此之外,基本一致。

具体而言,

self-attention输入则是一个单一的嵌入序列

Cross-attention将两个相同维度的嵌入序列不对称地组合在一起,而其中一个序列用作查询Q输入,而另一个序列用作键K和值V输入。当然也存在个别情况,在SelfDoc的cross-attention,使用一个序列的查询和值,另一个序列的键。总而言之,QKV是由两序列拼凑的,不单一。

3.Cross-attention算法 

softmax((W_{Q}S_{2})(W_{K}S_{1})^{T})W_{V}S_{1}

  • 拥有两个序列S1、S2
  • 计算S1的K、V
  • 计算S2的Q
  • 根据K和Q计算注意力矩阵
  • 将V应用于注意力矩阵
  • 输出的序列长度与S2一致

4.Cross-Attention 案例-感知器IO

 感知器IO是一个通用的跨域架构,可以处理各种输入和输出,广泛使用交叉注意:

  • 将非常长的输入序列(如图像、音频)合并到低维潜在嵌入序列中
  • 合并“输出查询”或“命令”来解码输出值,例如我们可以让模型询问一个掩码词

这样做的好处是,通常可以处理很长的序列。层次感知器能够处理更长的序列,将它们分解成子序列,然后合并它们。层次感知器也学习位置编码与一个单独的训练步骤,重建的损失。

Cross-attention是一种注意力机制,用于处理不同维度的数据。通常,cross-attention要求输入是相同维度的矩阵,但是有些情况下,可以处理不同维度的数据。在cross-attention中,有两个输入序列,一个作为查询(Q)输入,另一个作为键(K)和值(V)输入。这种注意力机制可以通过计算查询序列和键序列之间的相似度来为每个查询分配权重,并使用这些权重对值序列进行加权求和,从而得到最终的输出。在某些情况下,也可以使用一个序列的查询和值,另一个序列的键。总之,cross-attention通过将两个不同维度的嵌入序列组合在一起,实现了跨序列的信息交互。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [cross attention输入不同维度的矩阵](https://blog.csdn.net/m0_46482145/article/details/129637158)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [CrossAttention KBQA](https://blog.csdn.net/qq_42791848/article/details/122630149)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [【科研浅学Cross-attention?](https://blog.csdn.net/MengYa_Dream/article/details/126688503)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值