Heterogeneous Non-Local Fusion for Multimodal Activity Recognition

一. 前言

  • 这是一篇解读论文的博客,论文标题为:Heterogeneous Non-Local Fusion for Multimodal Activity Recognition

  • 其中涉及到的知识点有:

    • 模态融合(视频信息与传感器信息)
    • Non-Local神经网络
    • 活动识别

二. 概述

  • 这篇文章是做活动识别的,采用的方法是模态融合的方法,融合的信号源有视频信号和传感器信号
  • 其中创新点是对Non-Local神经网络做出了一些创新,使得其能够对异构信号源进行融合

三. Local神经网络

  1. Local神经网络的例子
  • 在讲Non-Local之前,很有必要讲一下什么是Local神经网络,因为它们是相对而言的
  • 举两个深度学习领域的典型例子:CNN网络处理图片、RNN网络进行机器翻译
  1. CNN网络处理图片

图像识别

  • 从上图可以看到,在做卷积和池化等计算时,是对图片一个个局部进行计算(其实是为了提取有效的特征);当filter是3x3的大小时,那么这时计算的就是图片中3x3的9个像素的大小
  • 所以,CNN网络为什么是Local的体现在不能一下子对整个图片进行计算,而是对图片每个局部进行特征提取
  1. RNN网络进行机器翻译机器翻译
  • 从上图可以看到,机器翻译时输入的是一个一个单词,然后将上一个单词计算后的输出作为下一个的输入,来找到单词之间的联系(也叫远程依赖)
  • 从这个处理过程可以看到,RNN网络是一个一个单词的计算,而不是一下子计算整个语句,输出翻译结果,RNN网络属于Local神经网络体现在这里

四. Non-Local神经网络

  1. 什么是Non-Local神经网络?
  • 了解了什么是Local的概念之后,Non-Local的概念其实就是相对的,也就是说,它可以处理全局的信息,而不是对局部进行处理
  1. 用图片进行解释Non-Local
  • 图片截取自文章:Non-local Neural Networks
  • 做的工作是对视频信号进行处理,从而进行视频分类
  • 首先,这是一个视频的四个帧,其中 X i X_{i} Xi是第一帧中的一个位置(像素点);会发现这个位置不仅关联了本图片的其他位置,还关联了其他帧的位置(图片中只画出了一部分关联性较强的位置),这也是Non-Local的体现,因为这个网络是考量全局的
  1. 用公式进行解释
    Non-Local公式
  • 变量代表的意义 x x x是输入信号, x i x_{i} xi x j x_{j} xj在前面的图片上可以看到,是图片上两个不同的位置(可以是同一帧图片,也可以是不同帧图片),然后 i i i j
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值