towards high performance video detection

Xizhou Zhu∗, Jifeng Dai,Lu Yuan,Yichen Wei,et.al Towards High Performance Video Object Detection// IEEE Conference on Computer Vision & Pattern Recognition. 2018
该论文在DFF和FGFA的基础上进行了三点改进,DFF专注于速度,而FGFA专注于精度,本文结合两者优势,在速度和精度上进行了权衡。
(1) 特征的稀疏递归聚合
在这里插入图片描述
第一个公式是对两个连续的关键帧k k‘进行递归特征聚合,用上一帧warp过来的特征和当前帧的真实特征进行加权求和,得到聚合的增强特征,聚合后的关键帧包含了之前所有关键帧的特征信息。
(2) 空间自适应局部特征更新
与关键帧相邻的非关键帧有局部区域的变化较大,如果仅依靠光流传播的特征就会出错,所以在这里引入一个特征信息时间一致性的判别矩阵Q,由光流网络产生,大小和特征光流场一样大,每个位置的值代表这个位置的光流的质量,若在某位置p的值小于阈值,则说明该位置的光流不行,质量不好,需要重新计算p位置的特征
在这里插入图片描述
(3)自适应的关键帧选取
之前的关键帧都是固定间隔选取的,本文采用矩阵Q和is_key()函数计算出那些光流质量不好的点占的比例,如果大于设置的阈值,就说明当前帧与上一关键帧的变化就很大,就设置成新的关键帧
在这里插入图片描述
网络结构:
光流网络:使用最简单的版本FlowNet,在Flying chairs数据集上进行预训练,应用于半分辨率图像,输出步长为4,因为下面的特征网络的输出步长为16,光流场需要降低一半规模去匹配特征映射的分辨率,再额外添加一个随意初始化的3*3的卷积层预测feature propagability indicator。

特征网络:采用最先进的ResNet101,在ImageNet分类上进行预训练。去掉最后的平均池化层和fc层,保留卷积层,最后一个块的有效步长由32变成16,最后一个块的开始步长由2变为1,最后一个块中卷积层(内核大小为> 1)的膨胀量设为2。最后再应用一个3*3的卷积层降维。
检测网络:使用的是R-FCN
训练细节:SGD训练。每个mini-batch的样本都是来自ImageNet VID或ImageNet DET,比例为1:1.进行12万次迭代,4个GPU,每个GPU持有一个minni-batch。在前8万次迭代和后4万次迭代的学习速率为10-3和10-4,在训练和推理过程中,图像大小被调整为在图像识别网络中600像素,flow网络中300像素。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值