[ICCV 2021] Pyramid Spatial-Temporal Aggregation for Video-based Person Re-identification

该论文提出了一种名为PSTA的金字塔时空特征融合模型,用于视频行人重识别任务,以解决视频中的干扰信息问题。PSTA通过时空聚合模块逐级提取高维时序特征,增强模型的鲁棒性和准确性。实验结果显示,PSTA在多个数据集上优于现有方法。
摘要由CSDN通过智能技术生成

1论文动机

行人重识别技术的目的是实现跨摄像头的行人快速检索。因为在现实场景中的广泛应用,它已经成为计算机视觉领域的一个热门方向。虽然基于图像的行人重识别方法已取得了一些令人瞩目的进展。但是在实际应用中图像数据容易出现遮挡或者错误检测等问题,因而严重影响了行人重识别的精度。相比图像数据,视频数据包含更为丰富的时空信息,因而能避免图像数据的一些弊端,从而提取出更加有效的行人特征。为了获取视频中对应的行人特征,过去提出的一些方法比较倾向于直接利用3D卷积[1]或循环神经网络[2]进行时空信息建模。但是受采样环境的影响,视频中不可避免地会出现干扰信息,例如缺失行人、物体遮挡、错误检测等。这些干扰信息的存在给时空建模带来了巨大困难,如图1所示。为此,本文针对性地提出了金字塔型时空特征融合模型(PSTA),在进行时空建模的同时能削弱干扰信息对特征表示的影响,从而提升行人重识别的精确度和鲁棒性。

图1.聚合视频特征的方式

2论文题目

[ICCV 2021] Pyramid Spatial-Temporal Aggregation for Video-based Person Re-identification

王英权(江苏大学),张平平(大连理工大学),高尚(大连理工大学),耿霞(江苏大学),陆虎(江苏大学),王栋(大连理工大学)

论文链接:

ICCV 2021 Open Access Repository

代码开源:

https://github.com/WangYQ9/VideoReID_PSTA

 

3创新点

本文提出了一种针对视频行人重识别特征融合的新范式。模型的设计灵感主要来自于以下两个判断:

  1. 视频作为一种典型的三维数据,若直
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值