7-卷积神经网络-读书笔记

最新推荐文章于 2022-07-13 23:24:46 发布

Kobaayyy

最新推荐文章于 2022-07-13 23:24:46 发布

阅读量371

点赞数

分类专栏：深度学习图像处理与计算机视觉文章标签：卷积神经网络算法

本文链接：https://blog.csdn.net/Kobaayyy/article/details/104044566

版权

29 篇文章 24 订阅

订阅专栏

19 篇文章 2 订阅

订阅专栏

本笔记根据PaddlePaddlePPT中第7章内容整理总结。

1. 概述

1.1 深层神经网络问题导入

1.2 卷积神经网络概念引出
1.2.1 卷积神经网络的诞生

1.2.2 CNN基础结构

2.1 CNN网络结构

2.1.1 输入层：
2.1.2 卷积层:

卷积的直觉：卷积计算=特征提取
灰度图像上使用单卷积核：单个特征的抽取
术语：feature map（特征映射）、activation map（激活映射）、convolved feature（卷积特征）、receptive field（感受野）
RGB图像上使用单卷积核：单个特征的抽取
卷积核的深度=上一层数据输入的深度（channel数）
RGB图像上使用多卷积核：多个不同特征的抽取
一个卷积核提取一种局部模式，多个卷积核提取多种不同局部模式
卷积隐层的堆叠
卷积核的个数=下一层数据的深度=下一卷积层卷积核的深度
卷积核的个数=提取特征的数量，超参数，可以调节
隐层的卷积：特征组合
多层卷积：一层卷积得到的特征只是局部的，层数越高，学到的特征越全局化
需要注意的参数：stride
一次滑动的步长，有height上的和width上的stride
stride＞1时，相当于在stride=1的卷积结果中做了下采样
需要注意的参数：padding
padding=valid：不进行补零操作，s=1时，每卷积一次，宽和高数据维度下降F-1，F为卷积核大小
padding=same：在输入的周围进行0或复制补充；卷积前后宽高不变

小结

2.1.3 激活层

2.1.4 池化层

小结

2.1.5 全连接层

2.1.6 网络搭建小结

2.2 CNN网络训练
2.2.1 损失与误差的反向传播

多分类（打标）损失导入：
损失函数
交叉熵损失&SoftMax概率归一化： $H(p,q)=-\sum_{}^{}p(x)logq(x)$ ,用来衡量两个概率分布间的差异性
a.所以在网络中先将得分结果归一化为概率分布 $\to$ SoftMax： $S_i=\frac{e^i}{\sum_j^{}e^j}$
b.由输出和真实标签间的概率分布计算交叉熵，度量二者的差异情况
梯度下降
a.公式： $θ_j≔θ_j-α\frac{∂}{∂θ_j} J(θ)$
b.梯度下降使用样本方式的变种：批量梯度下降（Batch gradient descent）、随机梯度下降（Stochastic gradient descent）、小批量梯度下降（Mini-batch gradient descent）
c.梯度下降方式的优化：Momentum法、Nesterov加速梯度法、Adagrad法、Adadelta法、RMSprop法、Adam法
反向传播
a.求解损失对所有参数的梯度
b.两个过程：Forward pass（逐层计算，保存参数，便于反向计算时用）、Backward pass（由最后的损失倒序逐层计算每一参数的梯度，便于更新）
c.基本原理：链式法则
神经元中梯度的计算

2.2.2 模型评估与正则化

模型的泛化
a.学习算法的基本假设：用来训练模型的数据（测试集）和真实数据（测试集）间是独立同分布的
b.泛化能力：机器学习算法对未知样本的适应能力
c.如何提高学习算法效果：降低训练误差（欠拟合）、缩小训练误差和测试误差的差距（过拟合）
d.深度神经网络的泛化能力：高模型容量、正则化
模型的正则化
a.Early-stopping（早停法）
b.权重正则化：L1正则： $J=J_0+λ‖w‖_1$ 、L2正则weight decay： $J=J_0+\frac{λ}{2} ‖w‖_2$
c.数据增强:dropout