towards high performance video detection

最新推荐文章于 2023-12-20 01:50:54 发布

qq_41298141

最新推荐文章于 2023-12-20 01:50:54 发布

阅读量190

点赞数

本文链接：https://blog.csdn.net/qq_41298141/article/details/93646273

版权

Xizhou Zhu∗， Jifeng Dai，Lu Yuan，Yichen Wei，et.al Towards High Performance Video Object Detection// IEEE Conference on Computer Vision & Pattern Recognition. 2018
该论文在DFF和FGFA的基础上进行了三点改进，DFF专注于速度，而FGFA专注于精度，本文结合两者优势，在速度和精度上进行了权衡。
（1）特征的稀疏递归聚合
在这里插入图片描述
第一个公式是对两个连续的关键帧k k‘进行递归特征聚合，用上一帧warp过来的特征和当前帧的真实特征进行加权求和，得到聚合的增强特征，聚合后的关键帧包含了之前所有关键帧的特征信息。
（2）空间自适应局部特征更新
与关键帧相邻的非关键帧有局部区域的变化较大，如果仅依靠光流传播的特征就会出错，所以在这里引入一个特征信息时间一致性的判别矩阵Q，由光流网络产生，大小和特征光流场一样大，每个位置的值代表这个位置的光流的质量，若在某位置p的值小于阈值，则说明该位置的光流不行，质量不好，需要重新计算p位置的特征
在这里插入图片描述
（3）自适应的关键帧选取
之前的关键帧都是固定间隔选取的，本文采用矩阵Q和is_key()函数计算出那些光流质量不好的点占的比例，如果大于设置的阈值，就说明当前帧与上一关键帧的变化就很大，就设置成新的关键帧
在这里插入图片描述
网络结构：
光流网络：使用最简单的版本FlowNet，在Flying chairs数据集上进行预训练，应用于半分辨率图像，输出步长为4，因为下面的特征网络的输出步长为16，光流场需要降低一半规模去匹配特征映射的分辨率，再额外添加一个随意初始化的3*3的卷积层预测feature propagability indicator。

特征网络：采用最先进的ResNet101，在ImageNet分类上进行预训练。去掉最后的平均池化层和fc层，保留卷积层，最后一个块的有效步长由32变成16，最后一个块的开始步长由2变为1，最后一个块中卷积层(内核大小为> 1)的膨胀量设为2。最后再应用一个3*3的卷积层降维。
检测网络：使用的是R-FCN
训练细节：SGD训练。每个mini-batch的样本都是来自ImageNet VID或ImageNet DET，比例为1：1.进行12万次迭代，4个GPU，每个GPU持有一个minni-batch。在前8万次迭代和后4万次迭代的学习速率为10^-3和10-4，在训练和推理过程中，图像大小被调整为在图像识别网络中600像素，flow网络中300像素。