【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition
主要思想使用 Audio-Vision-Flow 3种模态数据作为输入的3种数据在时序上不同步,但时差在一定范围内在网络中段进行数据融合,即mid-fusion简介文章使用EPIC-KITCHEN数据集,包括3种模态数据,分别为video,audio,motion。其中motion数据是从video数据种计算得出的optical flow。audio数据的优点在于能够捕捉丰富的手物...
原创
2020-02-25 16:44:59 ·
1518 阅读 ·
0 评论