（论文总结）Compressed Video Action Recognition

最新推荐文章于 2023-08-15 09:25:07 发布

10生万物

最新推荐文章于 2023-08-15 09:25:07 发布

阅读量638

点赞数 1

分类专栏：深度学习文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/Zhang_713/article/details/116598782

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

代码地址：https://github.com/chaoyuaw/pytorch-coviar

一、摘要

首先，深度神经网络尽管在图像任务中表现出了非常好的效果，但是在视频任务中由于存在时序问题，它有时候并不能发挥出最好的作用。传统的双流法采用光流来提取视频帧之间的运动差异信息，但是是针对整个视频来提取的，但是这里有个问题，视频在传输和读取的过程中占据了非常大的内存，只有通过编码（H264）将原始视频先压缩成IBP帧，降低视频大小（通常可以将200多g的视频压缩为1g的文件），用的时候再根据IBP帧解码出原来的大小。光流的方法是对解码后的视频重新提取时序特征来处理的，那为什么不直接使用压缩视频的IBP帧呢？因为IBP帧其实就包含着时序特征，也叫做运动向量（MV）。本文就是针对将光流替换为MV做出一定的实验。

二、主要贡献：

（1）如上图，本文提出的方法在速度和精度上有着非常好的表现。首先，其速度快于2D的ResNet-152方法，更是数倍快于Res-3D，C3D，I3D。同时，它也可以保证精度不输于I3D等众多基于3D卷积的方式。重要的一定是：由于计算光流十分耗时，视频压缩中的Motion Vector一定程度上与光流相似，因此理论上可以不利用光流的情况下，也能保证一定的精度。（但是在实验中发现，MV存在的噪声和不精确问题有些严重）

（2）本文的主要的探究点有两个。一是如上图所示，在MP4视频格式中打破I-frame和P-frame的逐帧依赖方式，这样跟有利于网络的训练。二是探究多特征融合，特征上利用积累的Motion、Residual和I-frame 可以在UCF-101上达到90.8%的精度，远超I3D 84.5%的精度；再利用上光流可以达到94.9%，也优于I3D的 93.4%。

三、主要内容

1、论文中首先给了一个传统方法与文中方法的对比如下：

意思就是说，传统结构首先将压缩过的视频进行解码然后喂给网络，但文中提出的意思是不解码，直接用编码视频来作为时序信息喂到网络中

2、直接用MV存在的问题：

（1）I是关键帧，B是前后帧，P是只依赖前一帧，那么训练的时候如果直接使用P帧会出现问题，每一个P都依赖前一帧，作者采用了多种融合策略都没有达到好的效果，猜测可能需要对P进行一定的处理来增加P帧相对比其他帧的差异性来提高训练效果。

（2）MV的训练程度相比较于光流还是提升不大，光流在当时还不能完全被取代，所以需要对MV进行一定的处理才能显著提升效果。

3、本文的解决方案：

（1）针对2中的（1）文章采用累加的方法，这样就会让每一P帧只依赖于前面的I帧而非前面的P帧。

下图为累加残差从而使得P帧只依赖于前面的I帧的操作图：

下图为采用累加的方法产生的效果。

（2）对于MV的处理：

上图的而这段话简要的说就是首先知道当前P帧处的MV（D）和累积的从I帧到P帧的残差（R），这样话P帧只由D和R来决定，也就是由I帧和从I帧到P帧的累计残差来决定（不得不吐槽一下你为啥非要用这么复杂的公式表达呢）然后就得到了下面的示意图：

上图左面就是原始的方法，就是每一个P帧只由前一帧来决定，得到的残差效果很差劲，而采用了累计的方法以后的效果如右图所示，第一：每个P帧都依赖最前面的I帧，第二：P帧的残差效果明显，方便训练。

以上是针对输入模块的MV的改进，下面就是他提出的网络，就是针对双流处理的网络变了一下。。。

下图模型结构图。模型的输入将是一个I-Frame然后跟着T个P-Frame。认为I-Frame更为重要，为了能够节约计算，采用了ResNet-152来获取I-Frame的特征，用ResNet-18来获取MV和Residual的特征。另外对于是Video的任务，采用了Temporal Segment Networks。

下图是TSN的模型框架，本文将其中的Spatial ConvNet 替换为ResNet-152，使用I-Frame作为输入，获取到激活函数前的特征，然后P-Frame的MV 和Residual输入到ResNet-18获取激活函数前的特征，然后经过分别经过两层FC和softmax获取三个模型产生的平均分数和预测的类，三个分数经过加权相乘获得最终的混合分数和最终预测的类。