常见神经网络模型类别_基于RGB视频数据的深度行为分类模型发展综述一

本文综述了基于RGB视频数据的深度行为分类模型的发展,探讨了视频行为分类的重要性,并对比了不同深度学习模型如TSN、RNN在UCF101数据集上的性能。引用了多项关键研究,包括时序分割网络、双流架构和LSTM等在视频理解中的作用。
摘要由CSDN通过智能技术生成
4262679658db10000c45c1ffddeb723a.gif

摘要:

理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活的几百类行为。近些年来基于RGB视频数据的先进深度行为分类模型可以分为三类:基于双流架构的、基于循环神经网络RNN的和基于3D卷积神经网络的。本文将详细介绍前两种深度行为分类模型。

一、视频行为分类

当前人体行为识别的研究主要分为两个子任务:行为分类和时序行为检测。行为分类一般是对分割好的视频片段进行行为分类,每一个视频片段仅包含一个行为实例。然而,现实生活中大部分视频都是未分割的长视频,因此时序行为检测任务从未分割的长视频中检测出行为的开始、结束时间以及行为类别,一段长视频中一般包含一个或多个行为实例。行为分类是时序行为检测的基础,时序行为检测是比行为分类更复杂的研究任务,行为分类的经典模型(如TSN,C3D,I3D等)也被广泛用于时序行为检测任务当中。现在视频中人体行为识别的研究工作大部分都致力于提高行为分类模型的性能,并且研究最广泛的是对单人行为的识别。

二、评估数据集

对于数据驱动的深度学习方法来说,庞大的视频数据量显然能够提升模型的性能。本文选用了最新且规模更大视频数据集kinetics,来分别比较最新的基于RGB视频输入数据的行为分类模型的性能,同时也使用典型的视频数据集UCF101, 帮助分析和比较经典的深度行为分类模型。 UCF 101和Kinetics数据集的评估度量标准都是是平均精度均值(mAP)。在对视频中的行为进行分类时,每一个视频片段都会预测一个行为标签。假设有C个行为类别,每个视频片段都对应一个有C个元素的列表,每个元素代表着该视频属于行为c的概率,并将C个类别标签按照概率值从高到底排序。假设一共有n个视频片段,并取一个视频片段的预测得分列表中的前k个值,P(k)分别是类别标签排名在前k的预测概率值,rel(k)是指示函数,表明第k个标签是否是真阳性(true positive),如果是则为1,否则为0。因此,某个行为类别的平均精度(AP)的计算方式是 a6f4de9ac5ecabc582763d403dd48db7.png平均精度均值(mAP)是所有类别的平均精度求和后再取均值。 d5058641c88f313268c9a203b9e9652a.png UCF 101数据集一般只取预测概率最高的标签作为预测标签(k=1,top-1)。而Kinetics数据集中,细粒度的行为类别划分导致一个视频片段可能包含多种动作。例如,开车”时“发短信”,“弹奏尤克里里”时
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值