深度学习复习

Fernweb_

已于 2022-10-31 10:32:45 修改

阅读量979

点赞数 4

分类专栏：深度学习文章标签：深度学习人工智能机器学习

于 2021-07-05 11:23:53 首次发布

本文链接：https://blog.csdn.net/qq_43570528/article/details/118486185

版权

深度学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章目录

第二章
第四章
第五章CNN
第六章RNN
第八章
第十四章深度强化学习

第二章

2.1 机器学习三要素

在这里插入图片描述

2.2 损失函数

2.2.1 0-1损失

在这里插入图片描述

2.2.2 平方损失

在这里插入图片描述

2.2.3 交叉熵损失

在这里插入图片描述

2.3 过拟合概念

过拟合：经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。
过拟合问题往往是由于训练数据少和噪声等原因造成的。

2.4 过拟合的方法策略

正则化：增加L1/L2约束，数据增强
干扰优化过程：权重衰减、随机梯度下降、提前停止
dropout层

第四章

4.1激活函数概念，性质，分类

4.1.1 概念

激活函数就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

4.1.2 性质

（1）连续并可导（允许少数点上不可导）的非线性函数。
可导的激活函数可以直接利用数值优化的方法来学习网络参数。
（2）激活函数及其导函数要尽可能的简单
有利于提高网络计算效率。
（3）激活函数的导函数的值域要在一个合适的区间内
不能太大也不能太小，否则会影响训练的效率和稳定性。
（4）单调递增

4.1.3 分类

在这里插入图片描述

4.2 Sigmoid型是什么，有哪些属于该范畴，会描述

sigmoid型函数是指一类S型曲线函数，为两端饱和函数。常用的sigmoid型函数有Logistic函数和Tanh函数。
logistic函数定义为下图
在这里插入图片描述
描述：
1、定义域：(−∞,+∞)(−∞,+∞)
2、值域：(−1,1)(−1,1)
3、函数在定义域内为连续可导和光滑函数
4、处处可导，导数为：f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x))

4.3 Sigmoid有哪些缺点，以及改进

（1）梯度消失，容易饱和，并且当输入非常大或者非常小的时候，神经元的梯度就接近于0了。

（2）sigmod函数的输出不是以0为中心的

（3）exp()计算的代价大
改进：
如果在sigmoid型内部改进，就将logistic 改进为 tanh，若换激活函数改进，则改为RELU激活函数。

4.4 梯度消失、梯度爆炸概念，产生原因，如何避免

梯度消失：梯度减小为0 神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数，随着x的增大或减小导数为0，反向传播的参数无法训练。
梯度爆炸：梯度过大
原因：都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。初始化权值太大或太小。
避免：
参数初始化方式，如He初始化

非饱和的激活函数（如 ReLU）

批量规范化（Batch Normalization）

梯度截断（Gradient Clipping）

更快的优化器

LSTM

4.5ReLU及其变种，有哪些优点

在这里插入图片描述
优点：
计算上更加高效
生物学合理性
单侧抑制、宽兴奋边界
在一定程度上缓解梯度消失问题
计算方便，计算速度快
加速了网络的训练

第五章CNN

5.1 CNN的结构上的特点，与全连接网络比较，优点

5.1.1结构特点

（1）局部连接
（2）权重共享
（3）空间或时间上的次采样

5.1.2与全连接比较

全连接：
（1）权重矩阵的参数非常多
（2）在全连接神经网络中，每相邻两层之间的节点都有边相连
（3）自然图像中的物体都具有局部不变性特征尺度缩放、平移、旋转等操作不影响其语义信息，全连接前馈网络很难提取这些局部不变特征
卷积神经网络
（1）一种前馈神经网络
（2）受生物学上感受野（Receptive Field）的机制而提出的
（3）卷积神经网络，相邻两层之间只有部分节点相连，权重共享，参数较少

5.2卷积变种（窄卷积，宽卷积等），会计算卷积层神经元数量，

在这里插入图片描述
卷积层神经元数量 = 特征图长* 宽* 通道数
卷积层参数数量 = 滤波器个数*卷积核大小 * 通道数

5.3 CNN的整体结构，包括哪些单位，各有什么作用等，比如池化层。

输入层：用于数据的输入
卷积层：使用卷积核进行特征提取和特征映射
池化层：进行下采样，对特征图稀疏处理，减少数据运算量。
归一化层：在神经网络层的中间进行预处理的操作，有效地防止“梯度弥散”，加速网络训练。
全连接层：全连接层主要对特征进行重新拟合，减少特征信息的丢失；
输出层：输出层主要准备做好最后目标结果的输出。

第六章RNN

6.1 RNN优点及缺点

优点：引入记忆
图灵完备
循环神经网络通过使用带自反馈的神经元，能够处理任意长度的时序数据。
循环神经网络比前馈神经网络更加符合生物神经网络的结构。
短期记忆
神经元的输出可以在下一个时间段直接作用到自身
缺点：梯度消失，梯度爆炸，长时间依赖
长程依赖问题
记忆容量问题
并行能力

6.2 RNN的应用（在机器学习方面）

6.2.1 同步的序列到序列

同步的序列到序列模式主要用于序列标注任务，即每一时刻都有输入和输出，输入序列和输出序列的长度相同。比如在词性标注中，每一个单词都需要标注其对应的词性标签。
在同步的序列到序列模式中（如下图所示）输入一个长度为T的序列x=（x1,x2…,xt），输出序列y = （y1,…yt）。样本按x不同时刻输入到循环神经网络中，并得到不同时刻的隐状态h1，…，ht，每个时刻的隐状态ht代表了当前时刻和历史的信息，并输入给分类器g（·）得到当前时刻的标签y即
y = g（ht)
在这里插入图片描述

6.2.2 异步的序列到序列（掌握模型，模型构造，以及函数）

也称为编码器-解码器输入和输出不需要有严格的对应关系，也不需要有一致的长度。如在机器翻译中，输入源语言序列，输出为目标语言序列，其长度不一定等长。

在异步的序列到序列模式中，输入长度为T的序列x=（x1,x2…,xt），输出长度为M序列y = （y1,…yM）一般通过先编码后解码的过程来进行，先将输入序列x按不同时刻输入到编码器中得到其编码ht,然后再使用另外一个循环神经网络（解码器）进行解码得到输出y1_hat, 再将y1_hat和传递下来的隐状态一起进行f2函数的传递，采用自回归模型，每个时刻的输入都是上一时刻的预测结果。令f1（·）和f2（·）分别为用作编码器和解码器的循环神经网络则编码器解码器模型可以写为:
模型函数
在这里插入图片描述
模型

6.3序列模式中的具体应用举例

自然语言理解
作词机
机器翻译
作诗

第八章

8.1 注意力机制

在这里插入图片描述

8.2 RNN与注意力机制集合解决问题

文本分类
机器翻译
实例

8.2.1 文本翻译中的注意力机制

给定一个法语句子的输入序列，将它翻译并输出英文句子。注意力机制用于观察输入序列中与输出序列每一个词相对应的具体单词。

「生成每个目标词时，我们让模型搜索一些输入单词或由编码器计算得到的单词标注，进而扩展基本的编码器-解码器结构。这让模型不再必须将整个源句子编码成一个固定长度的向量，还能让模型仅聚焦于和下一个目标词相关的信息。」
法语-英语翻译中的注意力编译
图注：列为输入序列，行为输出序列，高亮块代表二者的关联，颜色越浅，则关联性越强。