王小胖儿-CSDN博客

原创 Efficient Object Instance Search Using Fuzzy Objects Matching

这篇文章《Efficient Object Instance Search Using Fuzzy Objects Matching》2017年发在AAAI上。作者提出了一种有效的目标实例检索方法----Fuzzy Objects Matching (FOM)。一般来说，实例检索将query图像与数据集图像产生的众多proposals进行一一匹配。但这种方法很明显时间

2017-05-29 19:45:38 631

原创 DSSD : Deconvolutional Single Shot Detector

《DSSD : Deconvolutional Single Shot Detector》[1] 2017年发表在CVPR上。前身是《SSD: Single Shot MultiBox Detector》[2] 推荐博客：论文阅读：SSD: Single Shot MultiBox Detector 两者都是物体检测领域的文章，DSSD对小目标检测效果较SSD有所提升。

2017-04-25 19:12:35 4774

原创 Feature Pyramid Networks for Object Detection

《Feature Pyramid Networks for Object Detection》发表在2017年CVPR上。本文提出一种Feature Pyramid Networks（FPN）网络结构，能够在不影响速度的前提下融合多层特征，使每个level的特征都具有丰富的语义信息，提高CNN网络特征提取能力。理论上，FPN在CNN方法中是一个通用的方法。 1. 网络

2017-07-09 16:41:27 4388

原创 Efficient Diffusion on Region Manifolds Recovering Small Objects with Compact CNN Representations

这篇论文《Efficient Diffusion on Region Manifolds: Recovering Small Objects with Compact CNN Representations》发表在2017年CVPR上。我自己的PPT: Efficient Diffusion on Region Manifolds: Recovering Small Objec

2017-07-08 16:26:51 1644

原创 CRAFT Objects from Images

《CRAFT Objects from Images》 2016年发表在CVPR上，对于目标检测问题，将RCNN网络结构进行了进一步的改进。目标检测任务通常分为两个子任务：产生proposals以及将proposals分类。在本文中，作者将两个子任务进一步细分，分别提高精度，以达到提高精确率的目的。整体框图如下： 1.

2017-06-13 10:48:49 1326

原创 Faster R-CNN Features for Instance Search

这篇论文是《Faster R-CNN Features for Instance Search》。发表在2016的CVPR Workshops 上。论文源码：https://github.com/imatge-upc/retrieval-2016-deepvision 首先给出网络结构图：输入图像之后，使用Conv5_3层的feature

2017-05-27 14:46:53 785 1

原创卷积神经网络CNN知识点

1.计算feature map大小 size= (W-K+2P)/S+1 其中，W是输入图像尺寸 K 是卷积核kernel的大小 P是padding的大小 S是步长 2.ROI从原图中映射到feature map上

2017-05-27 13:28:13 1233

原创 Spatial Attention model

这个方法来自于论文：《Context Aware Query Image Representation for Particular Object Retrieval》在描述待查询图像时，很多方法都利用到了region或者proposal的概念，旨在提高图中object的显著性。在此文中，作者提出了一种Spatial Attention model，即空间注意力模型

2017-05-27 11:14:21 18039 1

原创 R-MAC（Regional Maximum Activation of Convolutions）

众所周知，卷积神经网络的卷积层会产生一个三维的矩阵：W*H*K。如何将三维的转化为二维的，并加以利用呢？ R-MAC（Regional Maximum Activation of Convolutions）方法是一个十分常用的方法。该方法在论文《PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIV

2017-05-27 10:06:03 6521 5

原创 Faster-RCNN features for instance search（Python）Ubuntu配置

时间主要花在了配置Faster-RCNN上。这篇文章很好运行~ 1.配置Faster-RCNN: python implementation by Ross Girshick 2.下载本篇论文代码:Faster-RCNN feature for instance search 3.cd /retrieval-2016-deepvision-maste

2017-05-15 20:19:35 1481 2

原创 METU数据集分析

METU数据集共有923,343张生活中公司的logo图像，是2014年以来最大的公开可用logo数据集，也是2017年之前不需要任何预处理的最大的标识数据集。分为三类：图像logo（figure only），文字logo（text only），图像文字混合logo（figure+text）。（但在数据集中未明显分开，也未声明共有多少类。）已经有很多

2017-05-12 09:27:57 1308 5

原创 ImportError: No module named cv2问题解决

最近跑程序的时候，遇到下面的问题： import cv2 ImportError: No module named cv2 发现没有安装OpenCV视觉库。安装方法如下： 1. 下载opencv-3.0.0.zip 安装包存在了我的百度云网盘。链接：http://pan.baidu.com/s/

2017-04-25 16:22:58 35291 4

原创自然图像中的logo识别和定位：Logo localization andrecognition in natural images using homographic class graphs

这篇文章是2015年发表的文章：Logo localization andrecognition in natural images using homographic class graphs。检测自然场景中logo效果很好。为了理解，本文较长。重要的部分或者改进用红色标注。欢迎大家讨论~背景检测logo有很多挑战，比如视角变化、弯曲、形状和颜色的变化、遮挡、背景变化

2017-04-24 21:22:52 10712

原创 FlickrLogos-32数据集分析

数据集共有8240张图像。分为 32类logos。且均具有较为平坦的表面。 Adidas,Aldi, Apple, Becks, BMW, Carlsberg, Chimay, Coca-Cola, Corona, DHL, Erdinger,Esso, Fedex, Ferrari, Ford, Fosters, Google, Guiness, Heineken, HP,

2017-04-18 10:48:29 5823 26

原创 BelgaLogos数据集分析

BelgaLogos数据集含有自然场景的10000张图像，26种不同的logo（后来增至37种）和2695个logo实例，用边界框标注。所有图像均为JPEG格式，在保留各自宽高比的同时，大小调整为宽、高均不超过800像素。所有图像均已手动注释，提供了两种不同的groundtruth：Global groundtruth和Local groundtruth。

2017-04-12 21:59:34 2913 7