week3-Convolutional Neural Network

myooooou

已于 2022-08-17 04:01:19 修改

阅读量625

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络 cnn

于 2022-08-17 03:50:31 首次发布

本文链接：https://blog.csdn.net/myooooou/article/details/126377452

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Convolutional Neural Network

CNN基本结构

卷积层（convolutional layer）

卷积 — — 提取特征

卷积层的通过卷积核的过滤提取出图片中局部的特征

卷积层大小计算

s = stride, p = padding, f = filter size (square)

𝑊𝑖,𝐻𝑖: The width and height of the input image

𝑊𝑜,𝐻𝑜: The width and height of the output image

公式计算：

padding情况下： $W_{o}=\left\lfloor\frac{W_{i}-1}{s_{w}}\right\rfloor+1 \text { and } H_{o}=\left\lfloor\frac{H_{i}-1}{s_{h}}\right\rfloor+1$
no padding: $W_{O}=\left\lfloor\frac{W_{i}-f_{w}}{s_{w}}\right\rfloor+1 \text { and } H_{o}=\left\lfloor\frac{H_{i}-f_{h}}{s_{h}}\right\rfloor+1$

eg1: 在这里插入图片描述

eg2:

在这里插入图片描述

eg3:

Convolution layer with multiple filters and feature maps 多重卷积

一个卷积核先和3个通道的左上角的矩阵卷积，然后将得到的值全部加在一起。依次计算。

多卷积核方式：

在这里插入图片描述

池化层（Pooling layer）

池化层简单说就是下采样，他可以大大降低数据的维度。

池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合。

Makes the representations smaller and more manageable

使表示形式更小，更易于管理
Subsample the image
Operates over each activation map independently

独立在每个激活图上运行

公式：

In practice, we don’t overlap, s=f.

$\begin{array}{l} W_{O}=\left\lfloor\frac{W_{i}-1}{s}\right\rfloor+1 \\ H_{O}=\left\lfloor\frac{H_{i}-1}{s}\right\rfloor+1 \end{array}$

eg:

max-pooling

将每次选取卷积核框中的里面的最大值代表整个方块的值

average pooling

将每次选取卷积核框中的里面元素求均值来代表表整个方块的值
在tf中的写法：

Fully connected layer 全连接层

The last tensor is flattened and some fully connected layers are added to classify the input.

最后一个张量被扁平，并添加一些完全连接的层以对输入进行分类。
The last tensor [5,5,10] →1 layer with 5x5x10= 250 neurons

最后一个张量[5,5,10]→1层，有5x5x10 = 250神经元
全连接层（fully connected layers，FC）在整个卷积神经网络中起到“分类器”的作用。
每个神经元与其前一层进行全连接，将前期所提取的各种局部特征综合起来，最后通过输出层得到每个类别的后验概率。
经过卷积层和池化层降维过的数据，全连接层才能”跑得动”，不然数据量太大，计算成本高，效率低下。

softmax

softmax位于卷积神经网络层的最后一层，用于分类问题。
softmax的输入是T * 1的向量，输出也是T * 1的向量，只不过输出的向量的每个值的大小范围为0到1。softmax的输出向量就是该样本属于各个类的概率。

Batch Normalization Layer 批规范化层

常见问题：

covariate shift：

The distribution (nature) of training data is different from that of testing data

培训数据的分布（性质）与测试数据的分布不同

假设x是属于特征空间的某一样本点，y是标签。covariate这个词，其实就是指这里的x，那么covariate shift可以直接根据字面意思去理解：样本点x的变化。

Internal covariate shift (ICS)

本质上就是说将每一层的输入作为一个分布看待，由于底层的参数随着训练更新，导致相同的输入分布得到的输出分布改变了即不是独立同分布了

定义：深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。为了训好模型，我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致的参数更新策略。
原因：W和b值的更新或者mini-batches 的改变

Batch Normalization 批标准化

详细资料：什么是批标准化 (Batch Normalization) - 知乎 (zhihu.com)

Batch normalization 的 batch 是批数据, 把数据分成小批小批进行 stochastic gradient descent. 而且在每批数据进行前向传递 forward propagation 的时候, 对每一层都进行 normalization 的处理

优点：

Cope with internal covariate shift
Reduce gradient vanishing/exploding
Reduce overfitting
Make training more stable
Converge faster
- Allow us to train with bigger learning rate

计算过程如下：

gamma和β的作用：用了BN之后，数据分布会集中在0-1之间，这一区间激活函数曲线比较线性（导数接近1），这样就不能很好的利用激活函数的非线性化性质了。所以加γ和β就是要在一定程度下抵消BN带来的线性化，做了一个trade off。

对于测试集：BN还有scale和shift参数要考虑，所以还是需要计算均值和方差，不能只输入一个点。计算所有批均值和方差的指数加权移动平均，然后再加上scale和shift，这样计算才完整

Dropout Layer

This is a cheap technique to reduce model capacity
- Reduce overfitting
In each iteration, at each layer, randomly choose some neurons and drop all connections from these neurons

在每一iteration中，在每一层中，随机选择一些神经元并从这些神经元中删除所有连接
- odropout_rate = 1 – keep_prob

在这里插入图片描述