特征融合魔改，看这一篇就够了

最新推荐文章于 2025-03-11 13:57:32 发布

沃恩智慧

最新推荐文章于 2025-03-11 13:57:32 发布

阅读量3.1k

点赞数 28

文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/m0_73122726/article/details/142372666

版权

深度学习中的【特征融合（Feature Fusion）】将来自不同网络层、不同模型或不同数据源的特征信息进行有效整合，以提高模型的表征能力和性能，多次登顶各大顶会，包括近年来不断发展创新的反卷积、多尺度模型等。

为了帮助大家进一步学习特征融合，沃的顶会整理了特征融合各类魔改方法及变体，共26种，分享给大家。

需要的同学添加公众号【沃的顶会】回复特征融合26 即可全部领取

01. 金字塔池化

重新思考用于语义图像分割的 Atrous 卷积

论文标题：Rethinking atrous convolution for semantic image segmentation

方法：本文使用了两种策略来试验 multiple atrous rates：一种是“串联的结构”(atrous convolution in cascade)；另一种是“并联的结构”(atrous convolution in parallel)，以此来 handle 语义分割中的mutliple scale问题。其中并联的结构主要是基于先前DeepLab-v2提出的ASPP(Atrous Spatial Pyramid Pooling)结构和PSPNet和ParseNet 的启发，进一步融合了 image-level global feature，提升了精度。

创新点：

1）提出了DeepLabv3模型，该模型使用具有上采样滤波器的孔径卷积来提取密集的特征映射并捕获长程上下文。
2）为了处理多尺度对象分割的问题，设计了一个具有图像级特征的孔径空间金字塔池化模块，该模块能够以多个采样率和有效视野使用滤波器进行特征探测。

02. 自适应特征融合

学习特征融合在无监督域自适应人再识别中的应用

论文标题：Learning Feature Fusion for Unsupervised Domain Adaptive Person Re-identification

方法：本文提出了一种学习特征融合（LF2）框架，用于自适应学习融合全局和局部特征，以获得更全面的融合特征表示。具体来说，我们首先在源域内预训练我们的模型，然后根据师生训练策略在未标记的目标域上微调模型。平均加权教师网络旨在对全局特征进行编码，而每次迭代时更新的学生网络负责细粒度的局部特征。通过融合这些多视图特征，采用多级聚类来生成多样化的伪标签。

创新点：

1）在一对师生网络的基础上构建了一个学习特征融合(LF2)框架。其中，多视图特征被自适应地融合以进行多级聚类，旨在获得不同的伪标签。
2）为了学习更全面的表示，并避免对多个伪标签的模糊学习，我们设计了一个可学习的融合模块(FM)，该模块专注于全局特征中的细粒度局部信息。

03. 多模态融合

CentralNet：多模态融合的多层方法

论文标题：CentralNet: a Multi layer Approach for Multimodal Fusion

方法：本文提出了一种新颖的多模态融合方法，旨在通过引入一个链接特定模态网络的中心网络，通过整合来自多个媒体的信息来产生最佳决策。CentralNet架构是一种神经网络，它将来自不同模态的特征组合在一起，其每一层的输入都是相应单模网络及其之前各层的加权总和。

创新点：

1）借鉴了过去的大多数多模态方法要么通过将不同模式的特征投影到同一空间来工作，要么通过使用约束来协调每种模式的表示两种观点，提出了一种新的多模态融合方法。
2）引入了一个中心网络，将模式特定的网络连接起来。该中心网络不仅提供了共性嵌入功能，而且通过多任务学习实现了模式特定网络的规范化。

用于多模态集成的渐进式融合

论文标题：Progressive Fusion for Multimodal Integration

方法：本文提出了一种迭代表示细化方法，称为渐进融合，该方法缓解了后期融合表示的问题，并引入了反向连接，使后期融合表示可用于早期层，从而提高了这些阶段的表示表达能力，同时保留了后期融合设计的优点。

创新点：

1）提出了一种通过反向连接弥合早期和晚期融合之间差距的框架，并将这种不依赖模型的方法应用于各种任务的各种最先进的模型。
2）实验结果表明，渐进融合策略在多模态任务中能够有效提升性能，为多模态数据处理提供一种有效的集成方法。

04. 采用门控机制做融合

重新思考用于语义图像分割的 Atrous 卷积

论文标题：Multi modal Topic Learning for Video Recommendation

方法：该文提出了一种多模态主题学习算法，利用三种模态离线生成视频主题，利用语义主题特征代替视觉内容特征，有效降低在线计算成本。多模态主题学习方法包括：①从标题和封面图像生成深度联合表示的多模态多任务表示学习方法、②用于标签表示生成的图嵌入方法以及③基于深度联合表示和标签表示的串联表示生成主题的聚类过程。

创新点：

1）明确地将主题生成与推荐生成分开，提出了一种多模态主题学习算法，利用三种模态（标签、标题和封面图片）离线生成视频主题。所提算法生成的主题作为语义主题特征，便于确定偏好范围和生成推荐。
2）使用语义主题特征代替视觉内容特征，以有效降低在线计算成本。将该算法在快宝信息流平台上进行了部署，在线和离线评估结果表明，算法性能良好。

05. 注意力机制做融合

非本地网络与挤压激励网络及其他网络的结合

论文标题：Non-local networks meet squeeze-excitation networks and beyond

方法：本文提出了一个基于查询无关公式的简化网络，该网络保持了NLNet的准确性，但计算量显著减少。基于“这种简化设计与挤压激励网络（SENet）具有相似的结构”这一观察，将它们统一为一个三步通用框架，用于全球上下文建模。在一般框架内，设计了一个更好的实例化，称为全局上下文（GC）块。GCNet通过将GC块应用于多层来构建。

创新点：

1）作为长程依赖性建模的开创性工作，非局部网络，旨在对特定于查询的全局上下文进行建模，但仅对与查询无关的上下文进行建模。基于此简化了非局域网络，并将这个简化版本抽象为一个全局上下文建模框架。
2）提出了一种新颖的框架实例化，即GC块，它是轻量级的，可以有效地建模长程依赖性。在各种识别任务的主要基准测试中，其性能通常优于简化的NLNet和SENet。

需要的同学添加公众号【沃的顶会】回复特征融合26 即可全部领取