论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别(虽然标题里有tube,但其实做的是行为识别……)
    • 作者单位:中国科技大学&微软亚洲研究院
    • 发表时间:CVPR 2018

1. 要解决什么问题

  • 3D卷积计算量太大,影响行为识别的效果。
  • 当时的3D模型还是C3D,没花头。

2. 用了什么方法

  • 提出了 Mixed Convolutional Tube (MiCT) 结构,降低计算量、提高性能。
    • 说白了就是用一些2D+3D的结构来替换之前C3D中的3D结构。
    • 主要灵感来源于:视频数据中,相比 spatial 纬度,temporal 纬度的信息更多,或者说,相邻帧中空间维度的信息随时间变化较小。
  • 3D/2D卷积串联结构
    • 先3D,再对temporal纬度每一个分别进行2D。
    • image_1eiq9uuocod01t6d17qu1e1b42i9.png-156kB
  • 3D/2D cross-domain residual connection
    • 看样子应该是3D和2D的融合
    • image_1eiqa06j6eob1ebt1sfj1oeuij2m.png-116.3kB
  • 网络总体结构,即 MiCT-Net 结构
    • image_1eiqa2hgu15jungf1t27uj219af13.png-324.5kB
    • image_1eiqa3fgf1dg1cru1n114vta61g.png-95.6kB

3. 效果如何

  • 结果其实不是很想放,只有在UCF101和HMDB51上的结果,没有Kinetics400的
    • image_1eiqa8dl61n2lnb31dcl9151lur2d.png-185.7kB

4. 还存在什么问题&有什么可以借鉴

  • 数据融合的这几个结构也许有机会可以尝试一下。

  • 效果在现在看来应该不太行。

  • 表格里写了300+fps,但好像没有硬件型号?。。。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页