【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

EPIC-Fusion 是一种结合音频、视觉和运动流的 egocentric 动作识别方法。通过在时序上不同步的输入数据融合,模拟人类大脑处理方式。论文使用 EPIC-KITCHEN 数据集,音频数据能捕捉手物交互声音,减少环境噪声影响。算法流程包括基于 Inception 模块的特征提取、Temporal Binding Window 选取和多模态融合。实验表明,audio 对有明显声音的动作识别效果显著,且在存在背景声音的情况下仍能提高识别准确率。
摘要由CSDN通过智能技术生成

论文下载链接:

EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

主要思想

  • 使用 Audio-Vision-Flow 3种模态数据
  • 作为输入的3种数据在时序上不同步,但时差在一定范围内
  • 在网络中段进行数据融合,即mid-fusion

简介

文章使用EPIC-KITCHEN数据集,包括3种模态数据,分别为video,audio,motion。其中motion数据是从video数据种计算得出的optical flow。

audio数据的优点在于能够捕捉丰富的手物交互时产生的声音。尤其当交互过程中会发出特征明显的声音时(如油煎食物),audio数据能够提取有效特征。且当动作不在视野内时也能发挥作用。而同时使用其他两种模态数据又能降低环境噪声对识别的影响。

使用不同步的输入数据启发于生物科学对人类神经和行为的研究,模仿了人类大脑中的相似结构。

文章提出了新的多传感器融合方法以及基于TSN改进的网络结构。

算法流程

首先,将输入的video等分为K段,在每段里随机选取一帧, m 1 k m_{1k} m

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值