- 博客(6)
- 收藏
- 关注
原创 TPAMI - 2023 | TransVOD: End-to-End Video Object Detection
本文提出TransVOD,一种基于时空Transformer的端到端视频目标检测框架。该方法通过时间Transformer关联多帧信息,包含三个关键组件:时间可变形Transformer编码器(TDTE)聚合空间特征,时间查询编码器(TQE)融合目标查询,以及时间可变形Transformer解码器(TDTD)输出检测结果。进一步提出改进版本TransVOD++(引入动态卷积和难查询挖掘)和TransVOD Lite(片段级建模提升速度)。实验表明该方法在简化流程的同时取得优异性能,无需后处理即可实现高效视频
2025-10-03 12:41:42
915
原创 Arxiv | 2024 | Practical Video Object Detection:通过特征选择和聚合进行实用的视频对象检测
本文提出FSM、FAM模块用于特征的筛选与增强,并引入时序参数来关联前后帧
2025-09-27 20:41:28
735
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅