SCNN视频行为检测论文解读

Temporal action localization in untrimmed videos via multi-stage cnns论文解读

参考链接
Temporal action localization in untrimmed videos via multi-stage cnns是Zheng Shou发表在在CVPR2016上的论文,主要解决视频识别中的两个问题:
Action Recognition: 目的为判断一个已经分割好的短视频片段的类别。特点是简化了问题,一般使用的数据库都先将动作分割好了,一个视频片断中包含一段明确的动作,时间较短(几秒钟)且有唯一确定的label。所以也可以看作是输入为视频,输出为动作标签的多分类问题。常用数据库包括UCF101,HMDB51等。
Temporal Action Location:不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)。特点是需要处理较长的,未分割的视频。且视频通常有较多干扰,目标动作一般只占视频的一小部分。常用数据库包括THUMOS2014/2015, ActivityNet等。
这篇文章主要解决Temporal Action Localization的问题。SCNN指segment based CNN,即基于视频片段的CNN网络

  • 网络模型
    在这里插入图片描述

  • 多尺度视频片段生成

    在这里插入图片描述

  • Proposal Network

在生成训练数据时,同时还记录和segment和ground truth instance之间的最大重叠度(IoU)。对于proposal网络来说,将最大IoU大于0.7的标记为true,最大IoU小于0.3的标记为背景。以及类别(即如果存在多个重叠的ground truth,取重叠度最大的那个)。将得到的所有片段输入到C3D网络中,经过fc8后分为两类,即判断是否为背景,训练时将IoU大于0.7的作为正样本(动作),小于0.3的作为负样本(背景),对负样本进行采样使得正负样本比例均衡。采用softmax loss进行训练。proposal network的主要作用是去除一些背景片段。

  • Classification Network

经过Proposal Network后,背景被去除,对剩下的数据进行KKK个类别的动作分类。和Proposal Network类似,经过fc8后输出K+1K+1K+1类,其中一类是背景,这个网络被用来初始化localization network, 仅在训练阶段使用,在测试阶段不使用。训练时同样将IoU大于0.7的作为正样本(K类动作),小于0.3的作为背景类,对背景类动作进行采样使得背景类动作的数量和K类动作数量的平均值相近。训练时同样采用softmax loss。

  • Localization Network

在这里插入图片描述

  • 预测阶段
    预测时,滑动不同长度的时间窗,生成一组视频片段,输入到Proposal Network中,得到proposal的置信度得分Pprop,保留Pprop>0.7 的片段,将保留的片段通过Localization Network,得到动作类别及置信度Ploc,基于Ploc进行NMS去冗余检测。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这些模型都是用于目标检测的,下面分别介绍一下它们的特点: 1. ResNet-18:ResNet-18是一种经典的深度卷积神经网络结构,由于其具有较浅的网络深度和较少的参数量,因此训练速度较快,在目标检测任务中表现较好。 2. VGG-SincNet:VGG-SincNet是一种基于卷积神经网络的语音信号处理方法,通过直接从原始的语音波形中提取特征,能够在语音信号的目标检测任务中发挥很好的作用。 3. SJTU-RAS:SJTU-RAS是一种基于区域提议网络(Region Proposal Network, RPN)和快速区域卷积神经网络(Fast R-CNN)的目标检测方法,具有较高的检测速度和准确率。 4. MTI-MTR:MTI-MTR是一种基于多任务交互网络(Multi-Task Interaction Network, MTI)和多模态特征融合(Multi-Modal Feature Fusion)的目标检测方法,能够处理多种类型的目标检测任务。 5. SCNN:SCNN是一种基于卷积神经网络的目标检测方法,采用金字塔式的卷积和池化操作,能够在不同尺度下进行目标检测。 6. Ensemble Models:Ensemble Models是一种模型集成的方法,通过将多个不同的目标检测模型进行融合,能够提高目标检测的准确率和鲁棒性。 7. SSAD:SSAD是一种基于单阶段目标检测(Single-Stage Object Detection)的方法,使用无监督的自编码器进行特征提取,能够快速地进行目标检测。 8. TE-ResNet:TE-ResNet是一种基于时域编码(Temporal Encoding)和残差网络(Residual Network)的目标检测方法,能够有效地处理视频序列中的目标检测任务。 总的来说,这些模型都具有各自的特点和优势,在不同的应用场景中有着广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值