简单总结一下视频特征提取的常见范式:
- 直接使用3D卷积(时间轴stride>=2,实现时间维度的下采样) + 3D avg pooling,得到视频的全局表征
- 使用帧级别的图像特征 + 序列模型:
- 使用2D卷积神经网络提取帧图像特征
- 使用3D卷积神经网络提取帧图像特征(使每帧的图像特征考虑到了近邻帧的特征)
- 使用ViT模型抽取图像帧特征, patch embedding可以考虑使用2d或者3d嵌入
使用2D卷积提取视频特征的时候,时间轴维度T,先堆叠到batch维度, e.g. NxTxCxHxW - > (NxT)xCxHxW -> 特征提取: (NxT)xD -> reshape回序列特征: NxTxD
序列模型:可以使用lstm以及transformer模型