cs231n_lesson4-5

最新推荐文章于 2020-03-17 13:13:27 发布

一只飞鱼fy

最新推荐文章于 2020-03-17 13:13:27 发布

阅读量415

点赞数

分类专栏： cs231n

本文链接：https://blog.csdn.net/Kevin_cc98/article/details/78798573

版权

cs231n 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

深度学习网络有好多名字，其中包括人工神经网络“Artificial Neural Networks” (ANN) 或多层感知机“Multi-Layer Perceptrons” (MLP)。当然谈到感知机有时特指不加激活函数的网络才是感知机。

1.反向传播（backpropagation)

相当于于链式法则。这里写图片描述

Patterns in backward flow:
- add gate: 梯度与上一个梯度相同
- max gate: gradient router
- mul gate: gradient switcher
为什么不直接计算它的偏导/雅克比矩阵？而是分阶段计算？
staged backpropagation:将总计算分解为单个项目之间的运算，使得每个项目成为容易求解梯度的分阶段形式尽量简单。

2.深度网络的结构

这里写图片描述

卷积层

卷积核大小边长为F,原来图像边长为W，则滤波后的图像(activation map)大小:

W - F + 2 P S + 1

$\frac{W-F+2P}{S}+1$

一般流水线：

[(C O N V - R E L U) * N - P O O L ?] * M - (F C - R E L U) * K, S O F T M A X w h e r e N i s u s u a l l y u p t o 5, M i s l a r g e, 0 < = K < = 2

$[(CONV-RELU)*N-POOL?]*M-(FC-RELU)*K,SOFTMAX where N is usually up to ~5, M is large, 0 <= K <= 2$
卷积层一般用比较小的核，比如3x3或5x5，S=1或2，padding为1(这样大小不会变，如果为0，大小每次变化，边缘信息湖很快消失)

池化层

相当于对图像进行降采样，降低分辨率。
一般由3种池化方式：average pooling(现在相对来说少用),max pooling（常用），L2-norm pooling，stochastic pooling（值更大的被采中的概率大）
如果采用max，那么需要记录被采样的像素位置（被称为switches），以便用于之后的backpropagation
目前variational autoencoders (VAEs) or generative adversarial networks (GANs)都放弃池化层了。可见的原因是：一个2*2的池化会放弃75%的输入。以后可能更多的只用增大stride，而放弃pooling 操作。

全连接层(Fully-Connected Layer，FC)

一幅图像，比如32X32X3，最后的全连接层输出往往是[1x1x10]。
和普通的一样神经网络一样，和卷积层的区别是：卷积层是一个小层，只关联一个小的局部，而全连接层的参数是XW+b，W将整个X[i,:]输入层都用一个线性计算X[i,:]*W[:,j]在一起了（用y(i,j)表达这种连接。
为了利用矩阵相乘更快地进行卷积，一般会将输入X进行一些放大，然后乘上W.
但全连接层的对内存的消耗太大，而且相同参数下的表达性并不如几个卷积层叠加。
比如，经过3个3x3的卷积层，最后输出层的一个像素会与输出层的7x7的局部相关联。我们也可以用7X7的全连接层。但参数对比时：全连接层为C*(7*7*C)=49C*C;卷积层是3*(C*3*3*C) = 27C*C；此外，3卷积层可以表达非线性函数，而全连接层只能表达线性函数
当然，最近的GoogleNet，ResNet都没有使用FC layer

其他层

Normalization Layer(现在往往弃用)

参数压缩

使用增大stride的方法可以减少参数数量；但同时也要增大卷积核的大小来保持住ride增大可能会丢掉的信息。比如stAlexNet用11*11卷积核,stride为4.
most of the memory (and also compute time) is used in the early CONV layers, and that most of the parameters are in the last FC layers

一些大神的话

Instead of rolling your own architecture for a problem, you should look at whatever architecture currently works best on ImageNet, download a pretrained model and finetune it on your data. （不要纠结于设计自己的结构，而是看最近什么结构work）