视频分析相对于图像分析更加复杂,本文主要是记录一些关于利用深度学习进行视频分析的一些知识,里面的一些理解仅代表个人观点,如有不正确的地方欢迎留言交流(不接受批评。。。),整理不易,如有引用与转载,请注明出处。
视频与图像
更新时间:2020-08-05
图像数据增加一个时间维度即是视频,因此视频是由一系列的图像构成的。图像具有空间特征、视频具有时间特征,将两个特征放在一起分析,可以得到比仅用图像的空间特征获得更好的结果。增加了时间维度相应的会产生很大的空间,因此增加了模型训练与推断的复杂性。当我们用图像模型来处理视频时,必须考虑到时间维度特征来改变深度学习模型的架构。
视频分类概念
视频分类的目的是给视频标记类别。从字面理解视频分类可以任务是在整个视频上进行标记类别,但是视频是由一帧帧图像构成的,因此类别标记也可以在帧级别上。视频中可能会执行某些动作或任务(比如人体跌倒),因此,视频分类可以标记视频中的出现的目标或者视频中发生的动作。
视频分类数据集
视频分割
融合并行CNN进行分类
长时间视频分类
双CNN视频动作识别
3D卷积时间维度学习
轨迹视频分类
多模特融合视频分类
区域attention视频分类