神经网络与深度学习课堂笔记

最新推荐文章于 2023-03-27 09:38:26 发布

Vicente.

最新推荐文章于 2023-03-27 09:38:26 发布

阅读量397

点赞数

本文链接：https://blog.csdn.net/qq_42447015/article/details/108730848

版权

这里是引用

9/22

图灵测试

机器学习三要素

模型：

线性方法：f(x) = w^T $x + b$
广义线性方法：f(x) = w^T $\phi(x)+b$

学习准则

损失函数：
最小化损失函数
平方损失函数
经验风险最小化：把机器学习问题转化为最优化问题

优化算法：梯度下降
搜索步长 $\alpha$ ：学习率

机器学习算法的类型

在这里插入图片描述

数据的特征表示

图像特征

文本特征

在这里插入图片描述

表示学习

在这里插入图片描述

9/29

Marvin提出感知机的缺陷
不具备处理非线性可分问题的能力（XOR问题）
感知机到神经网络（由单个神经元到多个神经元）

人工神经网络主要由大量的神经元和它们之间的邮箱链接构成，有三个考虑方面：

神经元的激活规则：神经元输入到输出之间的映射关系，一般是非线性函数
网络的拓扑结构：不同神经元之间的连接关系
学习算法：在训练数据上学习神经网络的参数（误差反向传播算法）

感知器与人工神经元

激活函数的性质：

连续且可导（允许少数点上不可导）的非线性函数（可以直接用数值优化的方法学习参数）
激活函数极其导函数要尽可能的简单（有利于提高网络计算效率）
单调递增（周期型激活函数影响收敛性和稳定性）
激活函数的导函数的值域要在一个合适的区间内

激活函数-Sigmoid型

Logistic函数
tanh函数
特点：非线性且连续可导；tanh是零中心化的；收敛较慢（缺点！）

激活函数-ReLU型

ReLU = (x>=0?x:0) = max(0,x)
特点：简单，计算上高效；生物学合理（单侧抑制，宽兴奋边界）；一定程度上缓解梯度消失问题；
死亡ReLU问题：
LeakyReLU（泄露的ReLU）：
LeakyReLU = (x>=0?x:γx) = max(0,x) + γmin(0,x)
PReLU = (x>=0?x:γix) = max(0,x) + γimin(0,x)
(γi是学习的)
ELU = (x>=0?x:γ(exp(x)-1)) = max(x,0)+min(0,γ(exp(x)-1))

前馈神经网络

人工神经网络由神经元模型构成

前馈网络
记忆网络（每个神经元自己还连自己又称循环网络）
图网络

前馈神经网络（全连接神经网络，多层感知器）是最早发明的简单人工神经网络
特点：

各个神经元处于不同的层，层内无连接
相邻两层之间的神经元全部两两链接
整个网络中没有任何反馈

前馈神经网络优势：
解决异或问题：隐藏层实现对输入空间的非线性映射

前馈神经网络的优化目标：
交叉熵

反向传播算法
激活函数的选择：
目标值：期望输出一般选择（-1，+1）或（0,1）
数据正规化：
学习率的选择：
冲量项：有利于提升收敛速度（梯度更新时也要部分信任前一次的梯度）

前馈神经网络的缺陷：

梯度消失问题
非凸优化问题：神经网络的优化目标函数是高度非凸的，存在多个局部最优解
权重矩阵的参数非常多
参数多-过拟合问题：
局部不变行特征：尺度缩放、平移、旋转等操作不影响其语义信息

10/6

卷积神经网络

从全连接到卷积
卷积：

局部（稀疏）链接
权重共享
等变表示(等变：输入改变，输出也以同样方式进行变化) 平移等变

卷积神经网络：
1.也是一种前馈神经网络
2.受生物学上感受野的机制提出

基本元素

卷积

滤波器filter（卷积核convolution kernel）

一维卷积

一维卷积其他扩展：不同步长；零扩充

二维卷积

二维卷积其他扩展：不同步长；零扩充
空洞卷积：通过给卷积核插入“空洞”变相地增加输出单元的感受野大小。

增加卷积核的大小
增加层数来实现
在卷积之前进行池化操作

多通道卷积

采取很多卷积核对图像进行处理
多通道卷积扩展：
输出：P个特征映射M’*N’*P
多通道卷积的快速实现
用矩阵计算提升计算效率，但是内存消耗大

降采样
池化：均值池化、最大池化
用处：降采样（池化）可以减少特征空间的分辨率，增大感受野，降低输出对变形的敏感度。

全局聚合层（全连接层）

LeNet-5
AlexNet

深层神经网络的难点：
过拟合（数据增广，Dropout）
收敛慢（ReLU激活函数，mini-batch SGD）
计算代价高

10/13
网络架构设计、优化与正则
ZF
AlexNet 第一层是1111，步长4
ZF-Net 第一层是77，步长2
发现：
1.小尺寸的滤波器可以取得更好的结果
2.更多的滤波器（网络宽度）和网络深度可以获得更好的结果
3.更大的全连接不能取得更好的结果

VGG-VD（2014） very deep
三个重要改进:
1.全部使用3*3的滤波器
2.增加了卷积的数量（单层最大512）
3.增加了网络的层数（最多19层）
其他发现：
1.LRN（局部响应归一化）不重要
2.初始化方式很重要
用浅层网络初始化深层网络
均匀分布初始化方式 ‘Xavier’

ResNet
152层的网络做到96%的准确率
有梯度消失的问题：
核心技术：残差链接显著缓解梯度消失！
全局均值池化层代替了全连接层！
总结：
1.ResNet和VGG-VD相似
2.为什么会有效：网络结构边的更深更宽；残差链接极大的缓解了梯度消失的问题，平滑复杂的优化地形；

DenseNet
稠密链接
计算量实在太大了
堆叠了多个Dense模块
利用全局均值聚合

SE-Net
卷积权重

小结-架构设计的核心技术：
趋势：更小的滤波器，更深和更宽的架构。
ReLU非常重要，LRN用处不大
全连接层是可替换的
残差链接非常重要
更好的利用卷积特征（特征重复利用，注意力机制）

深层卷积神经网络的难点：
过拟合；难收敛；计算代价大；
优化角度：
非凸优化问题：
参数初始化、学习率选择、存在多个局部最优。
结构差异大：
网络和优化算法超参数多且不通用。

随机梯度下降（SGD）
目标：找到一个鞍点，即梯度为0的点。

小批量随机梯度下降（Mini-Batch SGD）
关键要素：
小批量数量
更新方式
学习率

批量大小不影响随机梯度的期望，但是会影响随机梯度的方差。

学习率的调整策略：
周期性学习率调整：
自适应学习率:

Vicente.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习课堂笔记

这里是引用9/22图灵测试机器学习三要素模型：线性方法：f(x) = wTx+bx+bx+b广义线性方法：f(x) = wTϕ(x)+b\phi(x)+bϕ(x)+b学习准则损失函数：最小化损失函数平方损失函数经验风险最小化：把机器学习问题转化为最优化问题优化算法：梯度下降搜索步长 α\alphaα：学习率机器学习算法的类型数据的特征表示图像特征文本特征表示学习...
复制链接

扫一扫