Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

最新推荐文章于 2024-09-20 20:32:56 发布

hb_ma

最新推荐文章于 2024-09-20 20:32:56 发布

阅读量630

点赞数

分类专栏：图像处理深度学习

深度学习同时被 2 个专栏收录

43 篇文章

订阅专栏

图像处理

38 篇文章

订阅专栏

Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

转载自：https://www.cnblogs.com/wangxiaocvpr/p/9377542.html

Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

Paper：https://arxiv.org/pdf/1807.06233.pdf

Related Papers:

1. Infrared and visible image fusion methods and applications: A survey 　　Paper

2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]

3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project page]

本文针对多模态融合问题（Multi-modal），提出一种基于 gate 机制的融合策略，能够自适应的进行多模态信息的融合。作者将该方法用到了物体检测上，其大致流程图如下所示：

如上图所示，作者分别用两路 Network 来提取两个模态的特征。该网络是由标准的 VGG-16 和 8 extra convolutional layers 构成。另外，作者提出新的 GIF（Gated Information Fusion Network）网络进行多个模态之间信息的融合，以取得更好的结果。动机当然就是多个模态的信息，是互补的，但是有的信息帮助会更大，有的可能就质量比较差，功效比较小，于是就可以自适应的来融合，达到更好的效果。

Gated Information Fusion Network (GIF)：