时序行为检测论文笔记(二):R-C3D

这篇文章是ICCV 2017的一篇文章,作者主要是以C3D网络为基础。借鉴了Faster RCNN的思路,对于任意的输入视频L,先进行proposal,然后3D-pooling,最后后进行分类和回归操作。文章主要贡献点有3个

  • 可以针对任意长度视频、任意长度行为进行端到端的检测
  • 速度很快(是目前网络的5倍),通过共享Progposal generation 和Classification网络的C3D参数
  • 作者测试了3个不同的数据集,效果都很好,显示了通用性。

一、网络结构

整个网络可以分为四个部分:

  • 特征提取网络:对于输入任意长度的视频进行特征提取
  • Temporal Proposal Subnet: 用来提取可能存在行为的时序片段(Proposal Segments)
  • Activity Classification Subnet: 行为分类子网络
  • Loss Function

下图是整个网络结构图。 
这里写图片描述

1.1 特征提取网络

骨干网络作者选择了C3D网络,经过C3D网络的5层卷积后,可以得到512 x L/8 x H/16 x W/16大小的特征图。这里不同于C3D网络的是,R-C3D允许任意长度的视频L作为输入。

1.2 Temporal Proposal Subnet

这一部分是时序候选框提取网络,类似于Faster

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值