Heterogeneous Non-Local Fusion for Multimodal Activity Recognition

最新推荐文章于 2022-07-26 22:20:28 发布

颜炎严言研

最新推荐文章于 2022-07-26 22:20:28 发布

阅读量245

点赞数 1

本文链接：https://blog.csdn.net/weixin_41891177/article/details/106903725

版权

本文介绍了使用异构非局部融合方法进行多模态活动识别的论文，结合视频和传感器信号进行活动分析。文章探讨了Local神经网络与Non-Local神经网络的区别，并详细阐述了Non-Local Block的设计，以及如何实现模态融合，特别是在不同维度张量之间的运算。此外，还提出了三种不同的模型以研究不同模态信息的主要性和辅助效果。

摘要由CSDN通过智能技术生成

一. 前言

这是一篇解读论文的博客，论文标题为：Heterogeneous Non-Local Fusion for Multimodal Activity Recognition
其中涉及到的知识点有：
- 模态融合（视频信息与传感器信息）
- Non-Local神经网络
- 活动识别

二. 概述

这篇文章是做活动识别的，采用的方法是模态融合的方法，融合的信号源有视频信号和传感器信号
其中创新点是对Non-Local神经网络做出了一些创新，使得其能够对异构信号源进行融合

三. Local神经网络

Local神经网络的例子

在讲Non-Local之前，很有必要讲一下什么是Local神经网络，因为它们是相对而言的
举两个深度学习领域的典型例子：CNN网络处理图片、RNN网络进行机器翻译

CNN网络处理图片

图像识别

从上图可以看到，在做卷积和池化等计算时，是对图片一个个局部进行计算（其实是为了提取有效的特征）；当filter是3x3的大小时，那么这时计算的就是图片中3x3的9个像素的大小
所以，CNN网络为什么是Local的体现在不能一下子对整个图片进行计算，而是对图片每个局部进行特征提取

RNN网络进行机器翻译

从上图可以看到，机器翻译时输入的是一个一个单词，然后将上一个单词计算后的输出作为下一个的输入，来找到单词之间的联系（也叫远程依赖）
从这个处理过程可以看到，RNN网络是一个一个单词的计算，而不是一下子计算整个语句，输出翻译结果，RNN网络属于Local神经网络体现在这里

四. Non-Local神经网络

什么是Non-Local神经网络？

了解了什么是Local的概念之后，Non-Local的概念其实就是相对的，也就是说，它可以处理全局的信息，而不是对局部进行处理

用图片进行解释

图片截取自文章：Non-local Neural Networks
做的工作是对视频信号进行处理，从而进行视频分类
首先，这是一个视频的四个帧，其中 $X_{i}$ 是第一帧中的一个位置（像素点）；会发现这个位置不仅关联了本图片的其他位置，还关联了其他帧的位置（图片中只画出了一部分关联性较强的位置），这也是Non-Local的体现，因为这个网络是考量全局的