Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记

1.论文主要思想

这篇论文是以《Joint Detection and Identification Feature Learning for Person Search》作为baseline进行改进的。在保持baseline中joint detection and re-id的方法基础上,本文方法将query guided person search这一思想贯彻始终,提出了QSSE-Net,QRPN,QSimNet三种子网络以实现利用query辅助搜索的想法。

2.实验结果

上表中是Person search中各种方法在CUHK-SYSU数据集上的表现对比,虚线上的方法将图片的短边resize到了600,虚线下方的方法将图片的短边resize到了900。对比最后两行可以看到QEEPS在OIM基础上的提升。

上表中是各方法在PRW/PRW mini中的对比,虚线上方为PRW,虚线下方为PRW mini。由于基于query-based的方法每次前传都需要将 [query, gallery] pair送入网络中处理,若有n个query和m个可能出现target的gallery,则网络需要前传n * m次而非n + m次,而PRW相对于CUHK-SYSU,每个query对应了更多的Bbox(36.8PRW v.s 2.8CUHK-SYSU),因此本文团队在PRW的基础上,抽取了30个query和所有的galery组成PRW mini,采取合适方法保持难度的同时降低evaluation的时间消耗。

3.模型结构和方法

3.1模型结构

模型结构如上,采取了Siamese network(孪生网络),在处理gallery时也同时将query也送入网络,辅助gallery feature maps的提取(通过QSSE模块),然后在原有RPN的基础上增加了QRPN更好的proposal ROI,在最后匹配query ID feature和Proposal ID feature时加入了QSim-Net来帮助匹配。

3.2 QSSE模块

首先来看QSSE-Net是如何work的。

QSSE是在SE(Squeeze-and-Excitation)的基础上提出的。SE的前传过程是将Residual block中通过Residual部分的feature首先通过Global Average Pooling将feture的每个通道变为size 1 * 1,整个feature map变为1 * 1 * C的tensor,然后通过全连接层FC1将维度C变为C/r,经过ReLu,再经过FC2将C/r还原为C,再经过Sigmoid,最终得到1 * 1 * C的tensor。将这个tensor作为权重,与Residual部分的输出做channel wise的乘积,调整feature map每个通道的权重,所谓Scale操作。最后将Scale的结果与Residual的输入相加作为SE模块的输出。

QSSE是如何work的呢?其实是将SE做了类似孪生网络的设计,Residual的输出经过GAP后进行拼接得到1 * 1 * 2C的tensor,FC1将其调整为2C/r,FC2重新调整为C(注意是C而非2C,以便与query和gallery各自Scale)。

在BaseNet部分中,经过多次QSSE block作为BaseNet的输出。

3.3 QRPN模块

QRPN模块中,首先对普通特征网络提取得到的Query feature map做ROI Pooling,然对其应用SE网络,得到1 * 1 *C的向量,再用该向量对BaseNet得到的Gallery feature map进行scale操作,然后送入后续的普通RPN。

原文中对Bbox Proposal这一步的叙述是,QRPN得到类似相似度的分数,普通RPN得到Bbox包围的是object的分数,二者相加作为最终的分数,以此为依据进行NMS非极大值抑制,然后对剩下的Bbox进行regression完成Bbox Proposal。

3.4 QSimNet模块

在OIM中对Query feature和Gallery上的proposal的feature计算余弦相似的及基础上,本文还加入了QSimNet,计算二者的相似度。过程是首先计算二者的L2距离(按维度相减再平方),然后应用Batch Normalization,通过全连接层,以及Softmax,最终得到query和gallery上的proposal的相似度得分。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: b'fast end-to-end trainable guided filter'是一个快速端到端可训练的引导滤波器。它是一种用于图像增强和降噪的滤波器,将图像作为输入,并产生增强的输出图像。该滤波器采用网络架构,可以通过监督学习进行训练,从而使其能够自适应地对不同的图像进行增强和降噪。此技术的创新之处在于它的速度快,并且可以自动调整和学习不同图像的特征和参数,从而提高了图像增强和降噪的效果和传统方法的性能。 ### 回答2: 快速端到端可训练引导滤波器(fast end-to-end trainable guided filter)是一种基于深度学习的图像处理算法,它可以快速地进行图像去噪、图像增强等操作。引导滤波是一种经典的图像降噪算法,它的原理是利用附加信息对图像进行滤波。传统的引导滤波需要在滤波过程中手动设置许多参数,效率较低,而且不易学习。 该算法将引导滤波嵌入到深度神经网络中,使得其可以端到端地训练,自动学习最佳参数,可以根据实际情况自动调整参数,从而得到更好的降噪结果。同时,该算法还引入了快速可分离滤波器(fast separable filter)的思想,通过对滤波器进行一定的优化,使其更加高效。 该算法的训练过程分为两个步骤。首先,使用成对的清晰和模糊图像进行训练,学习引导滤波器中的参数。其次,在测试时,使用该滤波器对任意输入图像进行滤波。该算法可以应用于多种图像降噪应用,如图像去模糊、图像去噪等。 与传统的算法相比,fast end-to-end trainable guided filter 的效果更好,速度更快,具有更好的鲁棒性和可扩展性,可以处理更大的图像数据集。 总而言之,fast end-to-end trainable guided filter 是现代图像处理领域的一种重要算法,它将深度学习的优势与传统的引导滤波算法相结合,在图像降噪、图像增强等方面得到广泛的应用。 ### 回答3: Fast end-to-end trainable guided filter(简称FastGF)是一种基于全可训练的引导滤波器的算法。引导滤波器是一种基于一对输入——引导图像和输入图像,来使输入图像平滑的滤波器。FastGF是引导滤波器的一种新近提出的算法,与之前的引导滤波方法相比有着很多的优势。 首先,FastGF可以通过深度神经网络进行训练,从而使其具有更好的泛化能力。其次,FastGF的计算速度非常快,可以在实时环境下进行使用。最后,FastGF可以很容易地与传统的图像处理算法进行集成,从而提高了它的实用价值。 FastGF可以被用于很多的计算机视觉任务,比如超分辨率、风格迁移和图像去噪。例如在图像去噪中,可以将噪声图像作为引导图像,原始图像作为输入图像,通过计算这两个图像之间的权重来实现图像去噪的目的。 总之,FastGF是一种可广泛应用于图像处理领域的算法。它结合了神经网络和引导滤波器的优点,并具有快速的计算速度和高实用价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值