【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法02

最新推荐文章于 2023-10-03 23:37:59 发布

呆军

最新推荐文章于 2023-10-03 23:37:59 发布

阅读量1.2k

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38065546/article/details/96721001

版权

上篇文章链接：https://blog.csdn.net/m0_38065546/article/details/96710698

2 Sequence Level Semantics Aggregation for Video Object Detection

文章链接：https://arxiv.org/abs/1907.06390v1

方法

这篇文章总体思路其实和上篇文章差不多的，主要有以下几个不同
1、本文中没有只聚合同一个类的proposal，而不是全部proposal
2、没有考虑proposal间的位置信息
3、作者将其提出的方法与谱聚类方法进行了类比，将视频目标检测定义为muti-shot问题，而不是时间序列问题，将视频检测与时序解耦。
4、采样帧数不再局限于3帧，而是聚合多个帧的proposal特征到一个关键帧proposal，这也是为什么题目中说是序列级聚合，其实聚合的还是proposal。
具体来看，如下图：
对于关键帧上的某个proposal，聚合来自其他帧中的同类proposal。
在这里插入图片描述

如何评判两个proposal同属一个类别？

在这里作者用余弦相似度来判断两个proposal是否来自同一个类别：
对于一对proposal $\left(\mathbf{x}_{i}^{k}, \mathbf{x}_{j}^{l}\right)$ 它们之间的相似性

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法02

随着ImageNet VID数据集的提出，专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式取refine单帧检测结果占了很大一部分，例如DFF FGFA等。。但是这些方法大部分是基于光流在帧级对特征的逐像素聚合，这种方式有以下一些限制：实验证明当物体运动速度越快时，光流估计也越差，这与我们引入视频处理的初衷相悖。这些方法都只关注于利用相邻帧之间的时间一致性，但是忽略了pro...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。