2017年05月_fffupeng

原创 visualizing and understanding convolution network论文

本文通过将feature map可视化映射到像素空间，来解释卷积网络为何表现的这么好？怎样提高卷积网络？首先解释一下如何进行可视化的过程。作者在文章中给出上图，从右边的部分看，从下至上，输入上一pooling层的输出，然后卷积，relu激活，然后池化。左边是反卷积的过程，首先反池化，然后relu（这在卷积和反卷积的过程中没有发生变化），然后是反卷积（如何反卷积下面再讨论）反池化

2017-05-31 11:07:44 370

原创参数更新方法

梯度下降法，动量下降，代码实现 https://github.com/hsmyy/zhihuzhuanlan/blob/master/momentum.ipynb 1、梯度下降法加大梯度下降的步长继续加大步长 2、动量更新 Momentum改进自SGD算法，让每一次的参数更新方向不仅仅取决于当前位置的梯度，还受到上一次参数更新方向的影响。 v = mu * v

2017-05-26 16:33:44 3728

原创 googlenet 论文

0、 inception结构利用网络中的计算资源，增加网络的宽度和深度，但保持计算量不变。 1、本文中，首先创新点在于算法和网络结构；其次注意了移动端和嵌入式的场景，考虑内存和功耗，所以提出的结构并不是固定的，参数少，计算量少。因此提出了高效的深度神经网络结构，称为inception，灵感来源于Network in Network。在该案例中，网络的深

2017-05-26 10:23:39 474

原创 network in network论文

本文主要是对传统的卷积网络进行改进，关键点有两个: 第一：mlpconv 第二：全局平均池化传统的cnn可以看做是广义线性模型GLM，所以cnn觉得潜在的概念都是线性可分的。（但是cnn+非线性激活不是能模拟出非线性吗？）但是一些数据是非线性、多维度的，因此提出将卷积替换为更多小部分的非线性函数，从而提升模型的抽象能力。作者通过mlpconv模拟多部分非线性函数。具体结构如下图：

2017-05-26 09:46:06 581

原创 alexnet 通过深度卷积对ImageNet图像进行分类

imagenet上使用深度卷积网络背景介绍目前的数据集太小，而复杂的图像分类和识别任务需要更多的数据训练。对于大量的数据又需要容量大的网络，cnn网络可以通过调节宽度和深度来调节网络的容量。cnn相比于标准的前馈网络有较少的链接和参数（归功于卷积操作共享权重），易于训练。与此同时，高性能gpu以及经过优化的2d卷积可以帮助训练。本文主要贡献： 1、训练了深度卷积网

2017-05-22 23:43:25 5314

原创 KNN和线性分类器

图像分类的困难和挑战：对于人来说，识别出一个像“猫”一样视觉概念是简单至极的，然而从计算机视觉算法的角度来看就值得深思了。我们在下面列举了计算机视觉算法在图像识别方面遇到的一些困难，要记住图像是以3维数组来表示的，数组中的元素是亮度值。视角变化（Viewpoint variation）：同一个物体，摄像机可以从多个角度来展现。大小变化（Scale variation）：物体可视

2017-05-19 00:03:14 2406

原创前馈网络训练的困难

（早期）神经网络通常使用随机初始化和标准的梯度下降法来训练，但是效果不好，这是由于非线性激活层饱和（虽然有时能够自己走出饱和区域）。目前已经通过良好的初始化和一些训练策略取得了较好的训练效果。尤其是无监督的预训练（目前来看已经是标准的初始化操作），可能的原因是由于无监督的预训练相当于正则化矩阵，将参数设为更加容易收敛的状态。但是目前我们致力于分析是什么样的原因使得训练多层深度网络变差。

2017-05-18 18:37:21 673

原创深度神经网络的权重初始化

为何需要初始化权重：当x越大或者越小，对应的sigmod激活函数的梯度越小，收敛速度越慢。而我们目的是需要较大的梯度，最好x落入sigmod函数的近似线性区间，以提高训练速度，所以权重的初始化将决定收敛的速度。几种权重初始化方法： 1、随机高斯分布，均值通常设为0，方差0.01或者其他。 2、xavier：其实是一定区间内的均匀分布。推倒的基础知识： 1.符

2017-05-18 16:54:38 883

原创 resnet 论文

问题：深度的神经网络很难训练解决方法：我们通过残差学习网络，训练更深的网络，实验显示深度残差网络很容易收敛并且通过加深网络更容易提升准确率。问题由来：网络的深度对于计算机视觉任务非常重要，很多事实证明更深的网络能获得更好的效果。但是训练很深的网络并不容易，原因如下： 1、梯度消失：这个问题通过normalized initialization和Batch normaliza

2017-05-18 00:08:51 3406

原创 batch normalization论文

通过减少internal Covariate shift加速深度网络的训练。什么是internal Covariate shift? 由于前一层参数的变化导致了后一层输入分布的变化。这需要减少学习率并且需要小心地初始化网络，并且由于非线性激活层饱和很难进行继续训练。因此作者提出了BN。经过batch normazation我们可以使用更高的学习率进行训练，并不需要特意关注初始化，并且在一

2017-05-16 14:18:53 396

原创 yolo论文

综述：将物体检测任务（划分边界框和类别的可能性）作为回归问题来解决。速度非常快，但是可能产生定位的误差，相比于rcnn，减少了假阳性。从上图可以看出结构非常简单优势： 1、速度非常快 2、处理全局的信息。在训练和测试的使用看到了整个图像，对类别和外表都进行编码。相比于faster rcnn减少了近一半的假阳性。 3、yolo学习归纳重新表达物体的特征。所以能够更加适应新

2017-05-15 15:51:12 740

原创 faster rcnn论文

背景：proposals的生成成为目标检测的瓶颈。作者祭出faster rcnn = rpn + fast rcnn的结构，本文主要介绍rpn网络。 rpn网络同时预测目标的边界proposal坐标和 proposal的得分，并且在训练时候可以和fast rcnn共享卷积层，减少生成proposal的代价。本采用交替训练的方法，当然在后面也实现了同时训练rpn和fast rcnn。

2017-05-12 12:48:38 714

原创 fast rcnn论文

背景：rcnn、sppnet、deep ConvNets 面临的挑战： 1、必须处理大量的候选框 2、生成的候选区域必须重新调整，用以获得更加精确的位置分析rcnn和sppnet： rcnn缺点： 1、多步训练 2、训练花费大量的时间和空间 3、定位非常缓慢 rcnn定位缓慢是由于，对每个proposal进行卷积计算，在同一张图片中没有进行共享卷积运算。 sppnet对整

2017-05-11 15:23:58 532

原创 rcnn论文

面临的挑战： 1、目标检测窗口生成：方法一：将检测任务作为回归问题方法二：滑动窗方法三：selective search 2、数据集较少通过在大的数据集ILSVRC上进行有监督的预训练测试模块的设计： 1、目标建议框的生成：selective search 2、特征提取：从每个建议区域227x227 提取到4096维特征。为了得到统一227x227图像，采用仿射变换。

2017-05-11 15:17:32 348

fffupeng的博客