【DL】深层神经网络学习方法与学习技巧

最新推荐文章于 2022-09-01 15:56:43 发布

一只干巴巴的海绵

最新推荐文章于 2022-09-01 15:56:43 发布

阅读量360

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/Hanx09/article/details/105893630

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

深度学习的发展史

神经网络结构

一般的神经网络结构
- Depp是指神经网络的隐层数量多
- 确定网络的层数及每层的神经元个数（超参数）：Trial and Error + Intution
- 神经网络的参数：所有的权重和偏置
- 自动确定网路结构的研究：E.g. Evolutionary Artificial Neural Networks
- 自己设计网络结构：例如卷积神经网络
全连接前馈网络
- 多个隐层相当于一个特征提取器（提取到最后一层），替代其他机器学习方法中的特征工程
  
  前向计算举例：激活函数取Sigmoid函数

矩阵运算

好处：可以利用GPU加速计算
什么是GPU加速？
- GPU又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器；
- GPU 加速计算是指同时利用图形处理器 (GPU) 和 CPU，加快科学、分析、工程、消费和企业应用程序的运行速度；
- GPU的特点是有大量的核（多达几千个核）和大量的高速内存，主要擅长做类似图像处理的并行计算，所谓的“粗粒度并行；
- CPU 由专为顺序串行处理而优化的几个核心组成。

评价神经网络——极小化损失函数

交叉熵损失函数：
$C(y,\hat{y})=-\sum_{i=1}^{10}\hat{y}_i\ln y_i$

寻找最优的神经网络

1. 梯度提升优化算法

2. 反向传播BP
$L(\theta)=\sum_{n=1}^NC^n(\theta)\Longrightarrow \frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}$

Forward pass
Backward pass

总结来说

深度学习的流程

深度学习的技巧

不要总是将不好的结果归咎于过拟合
Deep Residual Learning for Image Recognition

模型在训练集上表现不好

1. 选择新的激活函数

Sigmoid激活函数出现梯度消失问题

在输入层附近，反向传播会计算若干激活函数梯度的乘积，若激活函数梯度较小，输入层附近的下降幅度比输出层附近的梯度下降的少，输入层附近的参数学习的较慢，也就是说，当输出层的参数已经收敛的时候，输入层的参数可能还是一个未收敛的随机值
Sigmoid函数在在大的输入值处梯度很小： $\Delta C$ 较大，但 $\Delta w$ 较小