深度学习
文章平均质量分 65
cv_family_z
这个作者很懒,什么都没留下…
展开
-
论文提要“Gradient based Learning Applied to Document Reocognition”
1.综述 提出好的模式识别系统多依赖自学习,少依赖手工设计框架。字符识别可以将原图像作为网络输入,代替之前设计的特征。对于文本理解,之前设计的定位分割识别模块可以使用Graph Transformer Networks 代替。下图显示了传统的识别方法: 机器运算速度的提升,大数据和机器学习算法改进改变了上述传统方法。 A. 数据学习 经典方法是基于梯度的学原创 2015-06-17 16:16:58 · 2345 阅读 · 0 评论 -
特征学习“Building High-level Features Using Large Scale Unsupervised Learning”
摘要:GoogleBrain中特征学习的原理,通过使用未标记的图像学习人脸、猫脸high-level特征,得到检测器。文章使用大数据构建了一个9层的局部连接稀疏自编码网络(模型有1 billion个链接,数据有10 million 个200*200的图像)。使用模型并行化和异步SGD在1000个机器(16000核)上训练了3天,实验结果显示可以在未标记图像是否有人脸的情况下训练处一个人脸检测器。之前原创 2015-06-18 10:27:37 · 2963 阅读 · 0 评论 -
论文提要"Fast R-CNN"
快速R-CNN,对R-CNN和SPPNet的加速,使用multi-task 进行单步训练,网络使用的是VGG16。R-CNN对每个proposal单独warp处理,SPPNet将warp放到最后一个卷积层的后面,将多个池化网格的结果串联到SPP中。SPPNet的微调算法只能更新全连接层,限制了深层网路VGG16发挥性能。 主要贡献: 1.比R-CNN检测率更高 2.单步训练,使用multi-c原创 2015-07-01 18:02:14 · 2660 阅读 · 0 评论 -
SPPNet
CNN网络需要固定尺寸的图像输入,SPPNet将任意大小的图像池化生成固定长度的图像表示,提升R-CNN检测的速度24-102倍。固定图像尺寸输入的问题,截取的区域未涵盖整个目标或者缩放带来图像的扭曲。事实上,CNN的卷积层不需要固定尺寸的图像,全连接层是需要固定大小输入的,因此提出了SPP层放到卷积层的后面,改进后的网络如下图所示: SPP是BOW的扩展,将图像从精细空间划分到粗糙空间,之后将局原创 2015-07-10 16:57:48 · 18658 阅读 · 8 评论 -
论文提要“Delving Deep into Rectifiers”
首先对ReLU进行了改进,使用了参数化的ReLU自适应学习rectifier的参数提升准确率,即PReLU来拟合模型,另外使用了鲁棒的初始化方法考虑rectifier的非线性特性,使得深层网络能够收敛。top-5error 为4.94%,在ILSVRC上首次超越了人眼(感觉这么说还是很牵强的,后面也进行了解释)。过去几年深度学习的主要关注在构建有效的模型和设计应对过拟合的策略上,通过增加网络复杂度,原创 2015-07-09 17:01:41 · 2672 阅读 · 0 评论 -
论文提要“You Only Look Once: Unified, Real-Time Object Detection”
项目主页:http://pjreddie.com/darknet/yolo/这篇文章着重在检测的速度提升,区别于之前的方法是用分类器来做检测,文章对bbox和对应的类概率进行回归,检测速度可以达到45f/s,mAP与原始的R-CNN差不多。出现原因: CNN在分类上已经可以达到实时,而在检测上R-CNN需要几秒的时间处理一张图片,主要是由于proposal的提取时间需要约1~2s的时间,然后还有很原创 2015-07-08 14:51:39 · 16300 阅读 · 25 评论 -
论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”
对于行人检测,以往的深度学习将其作为二值分类问题,这样易与困难的负样本混淆。本文将行人检测细分为行人属性(背部,性别和视角)和场景属性(车辆,树木等),目标是在高层特征空间分离或聚合相似的属性结构,如图2(c)所示。 为了避免大量负样本的标记,作者使用了数据库背景场景分割的结果。提出TACNN使用多种数据库学习多类问题。不同数据的背景B数据分布不同,作者transfer了两类场景属性,包括共享的属原创 2015-08-03 17:47:06 · 2759 阅读 · 1 评论 -
Dropout,maxout,NIN
Dropout dropout是前向网络结构中给定输入向量v,预测输出y的一种技术。网络包含一系列隐含层节点h=h(1),...,h(L)h={h^{(1)},...,h^{(L)}},Dropout是由v和h中的部分变量训练出模型的集成模型。使用θ\theta 对分布p(y|v;θ,μ)p(y|v;\theta ,\mu) 进行参数化,μ\mu 是决定包含哪些变量的二值掩码。不同子模型的实例可通原创 2015-07-16 17:02:37 · 2791 阅读 · 0 评论 -
论文提要“Visualizing and Understanding Convolutional Networks”
主要内容:提出了一种深层网络中分析特征层功能及分类器运行原理的可视化技术,通过可视化可以寻找更优的网络模型。可视化技术可以揭示网络中激活每层特征图的输入刺激,同时可以观察到训练过程中每个特征的以便诊断模型中可能存在的问题。可视化技术使用多层反卷积网络将特征激活投影回输入像素空间。此外,通过遮挡图像的部分区域分析了分类器的敏感性,揭示了对分类比较重要的场景部位。使用反卷积进行可视化 反卷积网络可认为原创 2015-07-20 16:24:53 · 1016 阅读 · 0 评论 -
论文提要“Taking a Deeper Look at Pedestrians”
比较:使用CNN做行人检测,目前最好的基于convnet的行人检测方法是SDN,之前的方法没有直接使用LeNet的,本文使用该网络。目前最好的行人检测方法是基于决策树的,包括SquaresChnFtrs,InformedHaar,SpatialPooling,LDCF和Regionlets,这些方法都是ICF结构的变体。 之前的基于cnn的方法使用的是人工设计的特征,最早的方法ConvNet的输入原创 2015-08-28 15:53:20 · 2993 阅读 · 0 评论 -
车型识别“A Large-Scale Car Dataset for Fine-Grained Categorization and Verification”
论文的目标如题,对车型进行精细分类,作者构建了一个比较大型的车辆数据库CompCars,涵盖不同视角,包含车辆内部及外部特征,由监控视频获得的数据和从网络上下载的数据组成。文章做了车辆型号识别,认证和属性预测三部分,训练好的模型GoogLeNet_cars在Caffe Model Zoo中。CompCars数据库 网络数据库包含163个品牌1716个车型,共136,727张整车图片,27,618张原创 2015-08-31 17:02:09 · 14130 阅读 · 15 评论 -
DeepID-Net:multi-stage and deformable deep CNNs for object detection
论文贡献: 1.融合多种技术进行目标检测:feature representation learning, part deformation learning, sub-box feature extraction, context modeling, model averaging, and bounding box location refinement 2.预训练方法:使用1000类ob原创 2015-11-02 17:01:04 · 1911 阅读 · 0 评论 -
行人检测“Pedestrian Detection with Unsupervised Multi-Stage Feature Learning”
主要思想: 1.结合多步的全局特征及局部特征用来分类 2.使用卷积稀疏编预训练滤波器现有的方法: 手动提取特征,如ICF,HOG及其变形和组合,使用可训练的分类器如SVM,boosted classifier或随机森林分类。 深层网络非监督预训练方法,包括RBM,stacked auto-encoders,stacked sparse auto-encoders. 非监督学习可以用来训练深原创 2015-10-20 14:22:08 · 2350 阅读 · 0 评论 -
行人检测“Joint Deep Learning for Pedestrian Detection”
动机:行人检测中的特征提取,形变处理,遮挡处理和分类联合学习。深度网络可以将各部分放到不同的网络层并使用BP进行优化。相关工作: 用于行人检测的特征:Haar,HOG,SIFT,一阶颜色特征如颜色直方图,二阶颜色特征如CSS,co-occurence特征,纹理特征LBP,其他形式的特征包括协方差,深度图,分割结果,3D几何,深度学习局部最大或平均池化特征。这些特征没有考虑行人的形变特征。 处理形原创 2015-11-06 14:24:04 · 2906 阅读 · 0 评论 -
论文提要“Learning Deepface Representation”
提出来金字塔CNN(PCNN)做人脸识别,使用greedy-filter-and-down-sample算子,在多尺度上特征共享描述人脸,学习到的8维特征在LFW数据库测试达到97.3%的结果。传统的人脸识别步骤有预处理,低层编码,特征转换,高层特征表示。深度网络将这些步骤一体化,直接对图像像素进行分析,信号经历多层非线性变换,与人工设计的多步骤方法类似。人脸描述是从图像像素映射到数值向量 f:R原创 2015-10-08 17:06:23 · 971 阅读 · 0 评论 -
目标检测“DPMs are CNNs”
DPMs是图形模型(Markov 随机域),CNNs是”黑盒子”非线性分类器。论文将DPM重构为CNN,将DPM算法展开,每步映射到一个相当的CNN层,将DPM使用的特征用学到的特征替换,得到DeepPyramid DPM。基于区域的检测R-CNN和基于滑动窗的方法DPM是互补的,一些物体比较容易分割,比如cats,另一些比如bottle,people难分割。DeepPyramid DPMs 输入原创 2015-10-27 15:56:51 · 3340 阅读 · 1 评论 -
论文提要“DeepFace: Closing the Gap to Human-Level Performance in Face Verification”
人脸识别步骤:检测,矫正,表示,识别。 论文使用了3D人脸模型进行矫正,9层的深度神经网络学习特征,有几层局部连接层。人脸矫正方法:(1)3D人脸模型,(2)搜索基准点,(3)像素级相似矩阵变化。论文根据基准点对人脸进行3D建模,将裁减的人脸转化为3D模式。每次迭代,使用支持向量回归(SVR)从图像描述子LBP预测点结构。2D矫正,图1(a)所示的六个基准点,用来对图像进行尺度变换,旋转,平移得到原创 2015-09-22 17:01:51 · 1587 阅读 · 0 评论 -
行人检索“An Improved Deep Learning Architecture for Person Re-Identification”
做行人检索的文章,输入是一对图像,网络输出这对图像的相似度值,新引入的网络层包括跨输入邻域差值层,根据图像对的卷积特征图计算局部关联,之后使用加和特征对输出特征图的邻域进行加和,最后计算远距离像素点的关联性。检索包括两部分,特征提取和特征相似度衡量。 传统的特征提取方法:颜色直方图,LBP,Gabor,local patch。 相似度度量:M氏距离,LFDA,MFA。网络架构:two layer原创 2015-11-13 13:52:57 · 6232 阅读 · 10 评论 -
行人检索"Deep Ranking for Person Re-identification via Joint Representation Learning"
检索的原则:与被检索图像正确匹配的图像应在整个检索库中排名靠前。提出了一个排名模型,使用深度CNN构建输入图像对于相似度得分之间的关系。在训练阶段,将标记的数据放到ranking units中,每个包含一个probe和对应的检索集。深度网络学习这么一个关系:为正确的匹配分配最高的相似度得分。相关研究: A.行人检索 设计的特征:Ensemble of Localized Features (EL原创 2015-11-16 15:38:09 · 3491 阅读 · 0 评论 -
车型识别“Vehicle Type Classification Using a Semisupervised Convolutional Neural Network"
使用半监督CNN做车型识别,趋势所致,对大量未标记的数据使用sparse laplacian filter learning(SLFL) 获得卷积的滤波器。分类阶段,使用softmax进行多任务学习,每个车型的模型参数使用latent task 重建,对六类车辆进行分类,总图片数9850张。cnn网络输入图像,输出每类车型的概率,网络包含两步,分别提取低层局部特征和高层全局特征,将低层和高层特征综合原创 2015-10-15 16:44:38 · 4269 阅读 · 0 评论 -
From Facial Parts Responses to Face Detection: A Deep Learning Approach
ICCV 2015 email to get code and modelhttp://personal.ie.cuhk.edu.hk/~ys014/projects/Faceness/Faceness.html本文主要是用CNN进行人脸局部属性检测,然后各个部件综合起来得到人脸检测结果。 本文主要包含三个步骤: 3.1. Partness Maps Extraction 人脸部原创 2015-12-09 10:58:01 · 2919 阅读 · 1 评论 -
人脸识别“DeepID”
DeepID的网络结构如下,网络最后一层获取的特征维数是160,用于分类超过10000类人脸身份,串联从不同人脸patch获取的DeepID特征,特征可以使用Joint Bayesian分类: Deep ConvNets 网络结构如下,DeepID最后一层与第三第四卷积层全连接,以减少第四层可能存在的信息损失。 网络的输出是softmax预测n个身份的概率: 特征提取之前进行人脸矫正,使用五原创 2015-11-17 14:53:49 · 1609 阅读 · 0 评论 -
Deeply Learned Attributes for Crowded Scene Understanding
CVPR2015 http://www.ee.cuhk.edu.hk/~jshao/WWWCrowdDataset.html 代码 https://github.com/amandajshao/www_deep_crowd本文主要使用 CNN来解析拥挤场景首先建立了一个关于拥挤场景的数据库 WWW Crowd Dataset A quick glance of WWW Crowd Datas原创 2015-11-27 15:49:43 · 1052 阅读 · 0 评论 -
人脸识别“FaceNet: A Unified Embedding for Face Recognition and Clustering”
作者认为用于训练的三元组很重要,使用经过筛选的三元组数据训练,在LFW上识别率达到了99.63%。使用深度卷积网学习图像的欧式嵌入。方法描述: 使用了两个网络Zeiler&Fergus,Inception网络。这个系统的架构如下: 将三元组损失用于识别,认证和聚类任务。学习一个embedding 函数f(x)f(x)将图像x映射到特征空间Rd\mathbb R^d,使得同一人脸间的平方距离最小。原创 2015-12-29 12:33:17 · 3680 阅读 · 0 评论 -
Training Very Deep Networks--Highway Networks
网上有传言 微软的深度残差学习是抄袭 Highway Networks,只是Highway Networks的一个特例。Highway Networks 的确是先发表的。http://people.idsia.ch/~rupesh/very_deep_learning/有开源代码Our Highway Networks take inspiration from Long Short Term Me原创 2015-12-18 09:17:05 · 7985 阅读 · 1 评论 -
论文提要 Deep Face Recognition
本文是关于深度人脸识别,British Machine Vision Conference, 2015 Visual Geometry Group Department of Engineering Science University of Oxford VGG网络提出的那帮家伙开源代码 http://www.robots.ox.ac.uk/~vgg/software/vgg_face/本原创 2015-11-16 17:22:35 · 4751 阅读 · 3 评论 -
Context-aware CNNs for person head detection
ICCV 2015 Matlab code available http://www.di.ens.fr/willow/research/headdetection/本文使用 CNN 进行 人头检测,包含三个子模型,结构示意图如下: Global model: 主要是给出一个多尺度热量图,越热的地方含有人头的概率越大。使用整幅图像的信息来定位物体,使用 CNN模型 Local model原创 2015-12-03 16:10:06 · 4080 阅读 · 0 评论 -
Unsupervised Learning of Visual Representations using Videos
ICCV 2015 project page http://www.cs.cmu.edu/~xiaolonw/unsupervise.html code https://github.com/xiaolonw/caffe-video_triplet这篇文章最大的亮点是 CNN 的 Unsupervised Learning。以前的CNN网络参数学习需要海量标定的数据,例如 ImageNet,原创 2015-12-08 14:05:12 · 1717 阅读 · 0 评论 -
A Lightened CNN for Deep Face Representation
一个小巧的人脸识别CNN网络https://github.com/AlfredXiangWu/face_verification_experiment当前基于CNN网络的人脸识别的文献可以说是满天飞,虽然效果不错,但是计算量大是一个问题。导致其难以用于嵌入式设备或手机里。当前关于人脸识别的CNN网络问题如下:1)很深的CNN网络导致一个大的模型,提取特征的时间较长。2)基于 ReLU 激活函数学习到原创 2015-12-25 09:26:13 · 8185 阅读 · 5 评论 -
Striving for Simplicity: The All Convolutional Net
http://arxiv.org/abs/1412.6806CNN网络貌似由简单到复杂,再由复杂到简单的趋势当前主流的CNN网络一般都包括以下几个模块:convolution and max-pooling layers和交替,最后是少数全链接层。本文对此深入分析,提出了只有卷积层的网络,发现效果不错。首先来看看 pooling, why pooling can help in CNNs,可能的解释原创 2015-12-25 15:16:18 · 7387 阅读 · 1 评论 -
Going deeper with convolutions
主要贡献: Googlenet,22层的深度网络。充分利用了网络中的计算资源,通过增加网络的宽度及深度实现。结构决策基于Hebbian原则和多尺度处理。网络结构引入了Inception模块,名字来源于Net in Net,在ILSVRC2014上获得state of the art的成绩。问题提出:提升网络性能的方法——增加网络的尺寸会导致两个问题:过拟合及大量的计算资源的需求。最近的关于稀疏矩阵计原创 2016-01-28 21:48:02 · 1304 阅读 · 0 评论 -
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
神经网络每层的输入分布随着上一层参数的变化而变化,这样细致的初始化参数导致训练时间很长,这种现象为internal covariate shift,作者对训练的每个mini-batch进行Norm解决这个问题。Norm的引入可以用更高的学习率,初始参数不用精细微调,网络不再需要Dropout。使用mini-batch计算梯度损失能够提升训练的质量,更有效,使用SGD需要细心的调整网络的参数,包括学习原创 2016-03-15 17:04:36 · 1380 阅读 · 0 评论 -
Inception-v3:"Rethinking the Inception Architecture for Computer Vision"
Googlenet的延伸,通过对Inception module进行卷积分解展开网络,在ILSVRC 2012上,4个模型集成及多次裁切,top-1位为17.3%,top-5为3.5%。GoogleNet的优势:从参数数量来看,GoogleNet参数为500万个,AlexNet参数个数为GoogleNet的12倍,VGGNet参数又是AlexNet的3倍。因此在内存或计算资源受限时,GoogleNe原创 2016-03-03 16:50:50 · 15807 阅读 · 0 评论 -
检索问题“Where to Buy It: Matching Street Clothing Photos in Online Shops”
将街拍衣物与网络在售衣物匹配,满足购物者的好奇心,作者构建了一个匹配数据库,街拍图像2w张左右,网络在售图像40w张左右,给一个输入衣物,找出其匹配的确定型号。作者使用了几种检索方法: 1.全图检索:AlexNet的FC6特征,进行余弦距离计算。 2.proposal检索,网络在售的图片没有标记框,提取100个proposal,再用余弦距离计算相似度。 3.相似度学习 使用三层全连接网,正负原创 2016-02-20 15:01:53 · 2684 阅读 · 0 评论 -
跟踪“Visual Tracking with Fully Convolutional Networks”
源代码:http://scott89.github.io/FCNT/ICCV15的跟踪文章,matlab版本,在TIAN GPU上3fps。方法:不同卷积层的特征描述物体的角度不同,高层的特征捕获的是语义信息,更像是一个类别检测器,低层的特征能把目标与相似的物体分开。另外,作者进行了特征图选择,将噪声及不相干的特组图去除。VGG16特征分析: 作者选取的是conv4-3和conv5-3,每层的特征原创 2016-02-26 11:06:55 · 5346 阅读 · 4 评论 -
车型识别“Hyper-class Augmented and Regularized Deep Learning for Fine-grained Image Classification”
两个贡献,一是使用hyper-class来增强数据,从网络上搜索hyper-class-labeled的数据,形成多类学习任务。二是公式化精细识别模型和hyper-class识别模型,通过挖掘二者的关系提升识别率。hyper-class 数据增强 数据增强的方法有裁切,镜像,增加随机噪声。但他们的效果有限,主要是信息类似。作者根据图像处理精细类别信息,还有内在的“属性”信息,而且这样的属性标记的图原创 2016-02-29 16:59:06 · 3342 阅读 · 0 评论 -
人脸识别“Neural Aggregation Network for Video Face Recognition”
人脸识别的新方法,主要对视频进行处理,使用CNN提取视频中多帧人像的特征,之后使用聚合模块对所有帧的特征向量进行学习累积,实验结果表明这种方法比手工设计的方法如平均池化要好。人脸识别结构如下图所示:视频中的人脸包含了目标不同姿态及光照条件下的图像,视频人脸识别的关键是如何有效的如何不同帧中的人脸信息,保留有效的信息并去除噪声。常用的方法有池化,即平均池化和最大化池化,作者设计了一个自适应权值方法,使原创 2016-03-28 14:25:15 · 4640 阅读 · 2 评论 -
HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
提出了一种Proposal提取和目标检测一体的网络,Faster-rcnn中的proposal提取网络RPN由于特征图的粗糙,在小目标及大IOU阈值情况下的检测率低。论文提出了HyperNet,综合低层,中间层和高层特征获得了较高的recall率。HyperNet的示意图如下所示: HyperNet网络结构 先将全图送入卷积层生成激活图,累积多层特征图压缩至归一化空间,即Hyper特征,之后pr原创 2016-04-12 16:58:19 · 3748 阅读 · 0 评论 -
目标检测“A MultiPath Network for Object Detection”
对Fast-RCNN方法做了三个小的修改:(1)检测器能够访问多层特征,(2)foveal结构多尺度提取目标上下文信息,(3)在多个IOU下优化损失函数。网络的结构如下图所示; Foveal结构 在目标识别时,上下文信息很重要,为了增加上下文信息,作者增加了4个裁切,即分别对proposal的视图放大1,1.5,2,4倍,每种情况使用ROI-池化生成特组图,接下来的流程共享相同的结构,之后将4个原创 2016-04-15 10:33:40 · 2764 阅读 · 3 评论 -
论文提要“Training Region-based Object Detectors with Online Hard Example Mining”
基于区域的Convnet目标检测有许多超参数如负样本与groundtruth的IOU,正负样本比例等,作者提出了一个在线的困难负样本挖掘方法OHEM,自动筛选困难负样本可以提升训练的效率。挖掘负样本的技术即bootstrapping,就是通过迭代训练找虚警样本更新模型,使用更新的模型进一步找虚警样本,Felzenszwalb证实在DPM中通过bootstrapping SVM可以在整个数据集上找到最原创 2016-05-13 15:34:15 · 2636 阅读 · 1 评论