论文浏览(35) You Only Watch Once


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:慕尼黑工业大学
    • 发表时间:2019.11

1. 要解决什么问题

  • 主流的时空行为检测方法使用的是类似 Faster R-CNN 的结构,这种方法的主要流程是:
    • 第一步,生成一系列proposals。
    • 第二步,对生成的proposals执行分类操作,并进行 localization refinements。
  • 上述结构存在以下问题:
    • 生成 action tubes(每一帧都有bbox) 非常耗时,且分类结果非常依赖proposals的质量。
    • proposals只关心单个人的特征,而没有考虑多个人之间的相互关系,以及单个人周边信息。
    • 使用 two-stage 的方法,分别训练 rpn 与后续的分类网络,并不能确保得到全局最优,可能只能得到局部最优。且训练消耗资源非常多。

2. 用了什么方法

  • YOWO的初始灵感来源于人的视觉感知系统
    • 人进行行为识别时,只会看到当前帧的信息。
    • 为了区分具体行为,会总我们的记忆中获取历史帧的信息。
    • 之后,融合当前帧与历史帧信息后,得出最终结论。
    • image_1egn0492g1kaj1fao1quj109e178i9.png-237.1kB
  • YOWO 总体结构
    • YOWO是single-stage的方法,类似于Yolo在目标检测中的概念。
    • 特征提取分为两个分支:
      • 3D CNN分支:处理一个clip的数据,使用3D CNN网络提取特征。
        • 注意,输出是 C, H, W,temporal 纬度会在特征提取网络中变为1。
      • 2D CNN分支:处理一个关键帧的数据,使用2D CNN提取特征。
    • Channel fusion and attetion mechanism
      • 作用:融合上面两个分支的信息。
    • 融合好的特征上进行分类与bbox回归操作。
    • image_1egn0u8e3in31c6b1l21s7u10fmm.png-167.2kB
  • Channel fusion and attention mechanism 详解
    • 结构如下图。
    • 输入特征是之前2DCNN/3DCNN concat后的结果。
    • 中间有一个注意力机制。
    • image_1egn80fdj1om63n5gm91sn43m513.png-107.8kB
  • Linking Strategy
    • 注意,需要这一步操作是获取 action tube 时的功能。
    • 所谓action tube,指的是每一帧都有bbox,前后帧bbox需要关联。
    • AVA数据集并不支持action tube。
  • Long-term feature bank
    • 保留一些历史数据,从而提高模型精度。
    • 因为YOWO期望提高模型运行效率,所以clip中帧数量较少,期望增减LFB来提高精度。
    • LFB的输入是3D CNN的输出。
    • 我没看懂这句话,需要到代码中研究下:At inference time, 3D features centering the key-frame are averaged and the resulting feature map is used as input to the CFAM block
  • 一些实现细节:
    • 3DCNN在Kinetics上预训练
    • 2DCNN在Pascal VOC上预训练

3. 效果如何

  • 性能指标包括两个
    • frame-mAP:使用Pascal VOC 2012的指标,猜测就是目标检测的mAP。
    • video-mAP:计算 action tube 中每一帧的IOU,当平均IOU大于阈值且行为标签正确时认为是TP。
  • 在Frame-mAP中,2D+3D+CFAM的效果比单独2D与3D效果好
    • image_1egnbamj31ln5jmg1u3u15i0kut1g.png-36.4kB
  • 在video-mAP中,2D/3D/CFAM的效果
    • image_1egnbe6ra1qrm1ig21o0g970172i1t.png-58.5kB
  • 对比不同backbone的结果
    • image_1egnbi64v1a0d4mm1ihf1ee2h42a.png-87.1kB
  • 与SOTA比较
    • image_1egnbio47b0ukgoa71ba45jm2n.png-78.2kB
    • image_1egnbj8maov91nbuge1snj7b834.png-74kB

4. 还存在什么问题&有什么可以借鉴

  • LFB的实现细节需要看源码。

  • 关于性能指标,特别是video-mAP,其实还没有完全明白,最好也看下代码。

  • 没搞清楚,linking strategy 在online中的作用是啥?

    • 感觉在online展示结果的时候,并不需要linking。
    • 只有在计算video-mAP的时候才需要linking。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值