论文阅读笔记
Shawn0901
这个作者很懒,什么都没留下…
展开
-
地点识别:NetVLAD: CNN architecture for weakly supervised place recognition
摘要:我们着力于解决大规模地点识别的视觉问题,在该任务中需要快速、准确地识别给定查询图像的地点信息。本文主要有以下三个贡献:第一,我们针对地点识别问题以端到端的方式训练了一个卷积神经网络。该网络结构的主要组成部分NetVLAD是一个通用的新VLAD层,该层的提出主要源自于广泛应用在图像检索领域的特征“Vector of Locally Aggregated Descriptors”。该层可以很容易...原创 2018-08-22 18:06:33 · 3210 阅读 · 1 评论 -
零样本图像检索:Towards Affordable Semantic Searching: Zero-shot Retrieval via Dominant Attributes
Towards Affordable Semantic Searching: Zero-shot Retrieval via Dominant Attributes, AAAI 20181. 概要论文首次提出了零样本检索任务(Zero-shot Retrieval, ZSR)。 该任务中包括两种场景,一种是通过未知类别图像的主要属性信息查询实例图像(Attributes to Image, A...原创 2018-11-14 14:41:46 · 1091 阅读 · 0 评论 -
CVPR2018 Sight and Sound 短文总结
CVPR2018 Sight and Sound 短文总结今年CVPR中关于视频和音频workshop: Sight and Sound一、视频(图像)与音频之间的相互生成1. A Multimodal Approach to Mapping Soundscapes (University of Kentucky)2. Image generation associated with music ...原创 2018-11-07 15:39:45 · 1991 阅读 · 0 评论 -
基于手绘草图的图像检索:Sketch Me That Shoe
摘要1.首次解决了基于手绘图进行细粒度图像实例检索(SBIR, sketch-based image retrieval)的问题。2.推出了两个新的细粒度SBIR数据集3.基于大量辅助的数据利用triplet ranking模型进行了阶段性的预训练4.对深度学习模型如何从增加的数据集中获得更好的提升进行了进一步的实验探索。数据集包含鞋和椅子两个数据集,共计716对草图-照片对。其...原创 2018-09-16 22:17:36 · 5574 阅读 · 2 评论 -
手绘图像识别:Sketch-a-Net that Beats Humans
该工作针对手绘草图识别问题提出了一个多通道的深度神经网络框架,使得计算机对手绘草图的识别能力首次超过了人类。1. 针对手绘草图设计了专门的深度神经网络结构。2. 通过多通道的方式增加了对绘图过程中不同的绘制顺序的考虑。3. 利用贝叶斯融合的手段对多尺度的网络进行了融合,从而可以有效解决手绘草图不同程度的提取和稀疏问题。论文整体的框架如上图所示,其中深度神经网络结构如下:...原创 2018-09-15 21:23:04 · 4316 阅读 · 0 评论 -
手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval
摘要文中提出了一种新的FG-SBIR(Fine-Grained Sketch-Based Image Retrieval)模型,虽然其本质上是一个常用的多分枝深度结构,不过相比于其它模型,其有以下特点:1)在每一个深度神经网络上都添加了注意力模块,因此使其对特征的学习可以更多的关注到显著性区域。2)通过对一个特征融合的方式将粗糙和细致的语义信息进行了融合。3)引入了一个基于高阶可学...原创 2018-09-05 15:57:23 · 3168 阅读 · 1 评论 -
图像检索与三维重建:From Single Image Query to Detailed 3D reconstruction
先前基于图像检索的三维重建方式由于只关注尺度和外表相似的图像而往往会导致细节缺失问题,为解决该问题,本文结合了基于运动的重建(SfM, Structure-from-Motion)和多尺度场景下的图像检索进行三维重建。文中对重建系统和检索系统建立的连接,使得能够根据当前的3D重建情况控制检索特性。整体框架如上图所示,共分为以上几个步骤:1.图像查询阶段:利用查询图像作为初始种子进行...原创 2018-09-11 11:15:24 · 1001 阅读 · 0 评论 -
行人再识别:Joint Learning of Single-image and Cross-image Representations for Person Re-identification
摘要行人再识别问题一般有两种解决思路,一种是对单张图像的特征进行匹配(SIR, single-image represention),另一种是对交叉图像特征进行二分类处理(CIR,cross-image representation)。在本文中,我们对两种方式之间的联系进行了探索,并借助CNN提出了一种联合两种方式的学习框架。对于上述的两种方式,第一种是通过比较两张图像特征之间的距离与阈值...原创 2018-09-04 19:26:05 · 1255 阅读 · 0 评论 -
行人再识别:Mask-guided Contrastive Attention Model for Person Re-Identification
摘要1.引进二值化的行人分割轮廓图作为额外输入,并与彩色图像合成为四通道的新输入,然后设计一种基于分割轮廓图的对比注意模型来学习背景无关的行人特征。在此基础上,提出一种区域级别的三元组损失函数,分别来约束来自全图区域、行人身体区域、背景区域的特征,提出的损失函数可以让来自全图区域和行人身体区域的特征在特征空间靠近,并远离背景区域,最终达到去除背景的作用。2.提出一种特殊的样本来扩充数据集:...原创 2018-08-31 17:02:47 · 2112 阅读 · 1 评论 -
基于内容的图像检索之多尺度局部特征提取:Visual Instance Retrieval with Deep Convolutional Networks
由于检索目标在图像中出现的位置以及大小是变化不定的,因此采用多尺度的局部特征代替整张图像的特征在一定程度上可以改善检索效果。 该论文是采用多尺度局部特征提取比较前期的一片文章,其直接在原图像上进行区域的划分,然后对划分后的图像进行特征的提取,最后将一张图像所有区域提取出的特征向量拼接到一起进行后处理工作。 本文主要讲解该论文子区域划分的方法。 论文...原创 2018-04-05 17:08:38 · 2367 阅读 · 0 评论 -
空间语义图像检索: Spatial-Semantic Image Search by Visual Feature Synthesis
如上图b所示,该论文提出一种利用画布的方式将空间信息考虑在内的图像检索方式。这种检索方式属于多模态的图像检索,即在检索中,queries和database属于不同的模态。在此前的图像检索领域中,大多是对语义相近或者视觉内容相近的图像进行检索,相应的特征也往往是为了图像的语义或者视觉内容而提取的。但是为了实现空间语义特征的图像检索,仅仅只有语义特征或者视觉特征是不可能实现的,因此需要一种特殊...原创 2018-07-24 15:15:53 · 1731 阅读 · 0 评论 -
大规模图像检索深度特征:Large-Scale Image Retrieval with Attentive Deep Local Features
在今年CVPR的“Revisiting Oxford and Paris_ Large-Scale Image Retrieval Benchmarking”一文中,对比了当前几种比较优异的图像检索算法在landmark中的表现,其中由“Large-Scale Image Retrieval with Attentive Deep Local Features”提出的DELF特征展现出最为突出的检...原创 2018-08-21 15:12:05 · 9560 阅读 · 0 评论 -
Kaggle “Google Landmark Retrieval” 竞赛第七名:Landmark Retrieval via Local Guidance and Global Expansion
摘要:谷歌最近就目前世界上最大的图像数据集“Google Landmarks”举办了一次检索比赛“Google Landmark Retrieval Challenge”。我们综合了不同的图像检索技术,提出了自己的检索模型,并在比赛中获得了第七名的成绩。本文将介绍我们的检索模型和结果,以及我们在竞赛中所克服的挑战查询系统的整个流程如上图所示,其主要包含五个步骤:1) 深度局部特征(DE...原创 2018-08-23 16:39:57 · 2461 阅读 · 0 评论 -
行人再识别:Beyond triplet loss: a deep quadruplet network for person re-identification
摘要1.设计了一个四元损失函数,相比于三元损失该损失函数可以有效增加类间间距、减小类内间距2.提出了一种自适应选取hard examples的方法3.对比分析了不同损失函数之间的关系损失函数常用的三元损失:其中[z]+=max(z,0),f(xi), f(xj), f(xk)表示三张输入图像的特征。文中采用了类似于[CVPR2016_Joint learning o...原创 2018-08-30 17:10:42 · 2704 阅读 · 0 评论 -
CVPR2019: Bag of Tricks for Image Classification with Convolutional Neural Networks
概况自2012年AlexNet提出以后涌现了大量的深度神经网络结构,例如VGG、Inception 及ResNet等等,这些不同网络结构之间的性能差异不仅仅是由网络结构的差异造成的,其它很多小的trick,比如stride size、学习率等等都会对结果带来很大的影响。为了综合评估各种手段对于训练结果的影响程度,本文对多种训练技巧进行了评估,并提出了一系列可以提升深度神经网络训练效果的trick...原创 2019-04-02 21:54:13 · 681 阅读 · 0 评论