特征融合太好用了!结合交叉注意力,妥妥涨点神器!!!

2024深度学习发论文&模型涨点之——交叉注意力+特征融合

交叉注意力(Cross-Attention)和特征融合(Feature Fusion)是深度学习领域中两个重要的概念,它们在多模态学习、图像处理和目标检测等任务中发挥着重要作用。

  1. 端到端的ATFuse网络:提出了一种端到端的ATFuse网络,用于融合IV图像。该方法在多个数据集上表现出良好的效果和泛化能力。

  2. 差异信息注入模块(DIIM):基于交叉注意机制提出了一种差异信息注入模块(DIIM),可以分别探索源图像的独特特征。

  3. 交替公共信息注入模块(ACIIM):将交替公共信息注入模块(ACIIM)应用于所提出的框架中,其中公共信息在最终结果中得到充分保留。

小编整理了一些交叉注意力+特征融合论文】合集,以下放出部分,全部论文PDF版皆可领取。

需要的同学

回复“交叉注意力+特征融合”即可全部领取

论文精选

论文1:

DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection

DynStatF:一种高效的激光雷达3D目标检测特征融合策略

方法

  • 双路径架构:提出了一种双路径架构,同时处理多帧(动态分支)和单帧(静态分支)激光雷达输入的特征。

  • 邻域交叉注意力(NCA)模块:将静态分支的特征作为查询,动态分支的特征作为键(值)进行注意力计算,仅考虑邻域位置。

  • 动态-静态交互(DSI)模块:在特征图变得密集的阶段,提供两个分支之间的全面交互。

创新点

  • 双路径架构:DynStaF是首次尝试部署双流架构,用于从多帧和单帧激光雷达输入中提取和融合特征,提高了3D目标检测的性能。

  • 邻域交叉注意力(NCA)模块:针对稀疏特征图设计,通过限制在邻域区域内的交叉注意力计算,减少了计算开销,提高了特征融合的质量。

  • 动态-静态交互(DSI)模块:针对密集特征图设计,通过CNN-based DSI模块在每个像素位置进行综合交互,增强了特征的语义信息和位置准确性。

  • 性能提升:在nuScenes数据集上,DynStaF将PointPillars的性能从57.7%提高到61.6%(NDS),与CenterPoint结合时,达到了61.0% mAP和67.7% NDS的领先性能。

论文2:

You Only Look One-level Feature

你只看一眼级别的特征

方法

  • 单级别特征检测:提出了一种不使用复杂特征金字塔的替代方法,仅利用一个级别的特征进行检测。

  • 扩张编码器(Dilated Encoder):通过堆叠标准和扩张卷积来扩大C5特征的感受野,以覆盖所有对象的尺度。

  • 统一匹配(Uniform Matching):提出了一种统一匹配策略,确保所有真实框能够均匀地与相同数量的正锚匹配,无论它们的大小如何。

创新点

  • 单级别特征检测:YOLOF证明了即使不使用特征金字塔,也能与具有特征金字塔的RetinaNet取得相当的结果,同时速度提高了2.5倍。

  • 扩张编码器(Dilated Encoder):通过扩张卷积扩大了C5特征的感受野,使得单一级别的特征能够检测各种尺度的物体。

  • 统一匹配(Uniform Matching):解决了由于单级别特征导致的正锚不平衡问题,确保了训练过程中所有真实框的平等参与。

  • 性能提升:YOLOF在没有Transformer层的情况下,与DETR的性能相当,但训练周期缩短了7倍。

论文3:

ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

ICAFusion:迭代交叉注意力引导的多光谱目标检测特征融合

方法

  • 双交叉注意力变换器框架:提出了一种新的特征融合框架,用于同时建模全局特征交互和捕获模态间的互补信息。

  • 迭代交互机制:受人类复习知识的过程启发,提出了一种迭代交互机制,以共享参数减少模型复杂性和计算成本。

  • 跨模态特征增强(CFE)模块:使单模态能够从辅助模态中学习更多的互补信息。

      

创新点

  • 双交叉注意力变换器框架:通过查询引导的交叉注意力机制增强了对象特征的可区分性,提高了性能。

  • 迭代交互机制:通过迭代学习策略,提高了模型性能,同时保持了参数数量不变,平衡了模型性能和复杂性。

  • 跨模态特征增强(CFE)模块:与单变换器融合方法相比,提出的CFE模块仅使用辅助模态的查询来计算跨模态的相关性,降低了计算复杂度和参数数量。

  • 性能提升:在KAIST、FLIR和VEDAI数据集上,提出的方法实现了优越的性能和更快的推理速度,适用于各种实际场景。


论文4:

Predicting Pedestrian Crossing Intention with Feature Fusion and Spatio-Temporal Attention

通过特征融合和时空注意力预测行人过街意图

方法

  • 混合特征融合策略:提出了一种新的神经网络架构,用于融合不同的时空特征,包括RGB图像序列、语义分割掩码和自车速度。

  • 时空注意力机制:使用注意力机制和递归神经网络堆栈来最优地融合不同的特征现象。

  

创新点

  • 混合特征融合策略:通过比较不同的特征融合策略(早期、后期、层次或混合),确定了最佳模型布局。

  • 时空注意力机制:通过注意力模块,模型能够更好地记忆序列源,提高了行人过街意图预测的准确性。

  • 性能提升:在JAAD行人行为预测基准测试中,提出的方法实现了最先进的性能,与现有方法相比,在准确性、AUC、F1分数、精确度和召回率方面都有显著提高。

小编整理了交叉注意力+特征融合论文代码合集

需要的同学

回复“交叉注意力+特征融合”即可全部领取

### 改进的十字交叉注意力机制研究 #### 迭代式跨模态特征融合中的应用 迭代式跨模态特征融合(ICAFusion)引入了一种新的方法来增强多光谱物体检测的效果。该方法利用了迭代式的跨注意引导特征融合技术,通过多次交互不同模态之间的信息,提高了模型对于复杂场景的理解能力[^2]。 ```python def cross_attention_fusion(feature_maps, iterations=3): for _ in range(iterations): # 跨模态间的信息交换过程模拟 updated_features = apply_cross_attention(feature_maps) feature_maps = update_with_context(updated_features) return feature_maps ``` 这种方法不仅能够捕捉到更丰富的空间关系,还能够在不同的感知通道之间建立更强的相关性,从而提升整体性能。 #### 结合YOLO系列的目标检测框架 在YOLOv5的基础上加入十字交叉注意力机制可以显著改善模型的表现。具体来说,在网络设计上进行了调整,使得第一次递归时就能有效地收集来自水平和垂直方向上的上下文信息[^4]: ```python class YOLOWithCrissCross(nn.Module): def __init__(self, base_model): super(YOLOWithCrissCross, self).__init__() self.base = base_model def forward(self, x): out = self.base(x) # 应用Criss-Cross Attention获取更好的上下文理解 enhanced_out = criss_cross_attention(out) return enhanced_out ``` 这种改进有助于提高小目标识别率以及处理遮挡情况下的准确性。 #### TensorFlow实现细节 针对CCNet提出的Criss Cross Attention模块,有开发者基于TensorFlow实现了相应的功能,并分享了一些实践经验和技术要[^3]。以下是简化版的代码片段展示如何构建这样一个自定义层: ```python import tensorflow as tf class CrissCrossAttention(tf.keras.layers.Layer): def call(self, inputs): batch_size, height, width, channels = inputs.shape query = self.query_conv(inputs) key = self.key_conv(inputs) value = self.value_conv(inputs) energy_H = tf.matmul(query.permute(0, 2, 1), key) / (height ** .5) attention_H = tf.nn.softmax(energy_H) out_H = tf.matmul(value, attention_H).permute(0, 2, 1) energy_W = tf.matmul(key.permute(0, 3, 1, 2), query) / (width ** .5) attention_W = tf.nn.softmax(energy_W) out_W = tf.matmul(attention_W, value.permute(0, 3, 1, 2)) return out_H + out_W ``` 此版本主要关注于保持原始算法的核心思想不变的同时优化计算效率并适应现代硬件环境的要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值