一. 前言
-
这是一篇解读论文的博客,论文标题为:Heterogeneous Non-Local Fusion for Multimodal Activity Recognition
-
其中涉及到的知识点有:
- 模态融合(视频信息与传感器信息)
- Non-Local神经网络
- 活动识别
二. 概述
- 这篇文章是做活动识别的,采用的方法是模态融合的方法,融合的信号源有视频信号和传感器信号
- 其中创新点是对Non-Local神经网络做出了一些创新,使得其能够对异构信号源进行融合
三. Local神经网络
- Local神经网络的例子
- 在讲Non-Local之前,很有必要讲一下什么是Local神经网络,因为它们是相对而言的
- 举两个深度学习领域的典型例子:CNN网络处理图片、RNN网络进行机器翻译
- CNN网络处理图片
- 从上图可以看到,在做卷积和池化等计算时,是对图片一个个局部进行计算(其实是为了提取有效的特征);当filter是3x3的大小时,那么这时计算的就是图片中3x3的9个像素的大小
- 所以,CNN网络为什么是Local的体现在不能一下子对整个图片进行计算,而是对图片每个局部进行特征提取
- RNN网络进行机器翻译
- 从上图可以看到,机器翻译时输入的是一个一个单词,然后将上一个单词计算后的输出作为下一个的输入,来找到单词之间的联系(也叫远程依赖)
- 从这个处理过程可以看到,RNN网络是一个一个单词的计算,而不是一下子计算整个语句,输出翻译结果,RNN网络属于Local神经网络体现在这里
四. Non-Local神经网络
- 什么是Non-Local神经网络?
- 了解了什么是Local的概念之后,Non-Local的概念其实就是相对的,也就是说,它可以处理全局的信息,而不是对局部进行处理
- 用图片进行解释
- 图片截取自文章:Non-local Neural Networks
- 做的工作是对视频信号进行处理,从而进行视频分类
- 首先,这是一个视频的四个帧,其中 X i X_{i} Xi是第一帧中的一个位置(像素点);会发现这个位置不仅关联了本图片的其他位置,还关联了其他帧的位置(图片中只画出了一部分关联性较强的位置),这也是Non-Local的体现,因为这个网络是考量全局的
- 用公式进行解释
- 变量代表的意义: x x x是输入信号, x i x_{i} xi和 x j x_{j} xj在前面的图片上可以看到,是图片上两个不同的位置(可以是同一帧图片,也可以是不同帧图片),然后 i i i和