自适应梯度算法
- 参数自适应变化:具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率
- 具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根
主要有三种算法:
性能优化问题
描述
我们希望建立迭代形式,并且形式尽量简单,类似基本BP算法(最速梯度法):
w k + 1 = w k + α k p k w_{k+1}=w_k+\alpha_kp_k wk+1=wk+αkpk
如何选取 α k \alpha_k αk, p k p_k pk构成优化核心内容
二阶算法
二阶算法:
- 常规梯度法
- 高斯-牛顿法
- Levenberg-Marquardt算法
深度学习平台介绍
库名 | 发布者 | 支持语言 | 支持系统 |
---|---|---|---|
TensorFlow | Python/C++/Java/Go | Linux/Mac OS/Android/iOS | |
Caffe | UC Berkeley | Python/C++/Matlab | Linux/Mac OS/Windows |
JAX | Python | Linux/Windows | |
MXNet | Amazon/DMLC(分布式机器学习社区) | Python/C++/Matlab/Julia/Go/R/Scala | Linux/Mac OS/Windows/Android/iOS |
Torch/PyTorch | C/Python/… | Linux/Mac OS/Windows/Android/iOS | |
PaddlePaddle | 百度 | Python | Linux/Windows |
MMdetection | 商汤/港中文 | Python | Linux/Windows |
库名 | 学习材料丰富程度 | CNN建模能力 | RNN建模能力 | 易用程度 | 运行速度 | 多GPU支持程度 |
---|---|---|---|---|---|---|
TensorFlow | ★★★ | ★★★ | ★★★ | ★★☆ | ★★☆ | ★★★ |
Caffe | ★★ | ★★ | ★ | ★ | ★★★ | ★ |
JAX | ★★ | ★★ | ★★ | ★★★ | ★★★ | ★★★ |
MXNet | ★★☆ | ★★ | ★★ | ★★☆ | ★★☆ | ★★★ |
Torch/Pytorch | ★★★ | ★★★ | ★★★ | ★★★ | ★★☆ | ★★☆ |
PaddlePaddle | ★★ | ★★ | ★★ | ★★★★ | ★★ | ★ |
MMDetection | ★★ | ★★ | ★ | ★★★★ | ★★☆ | ★ |
卷积神经网络基础
进化史:
基本概念:
- 全连接网络
链接权过多,难算难收敛,同时可能进入局部极小值,也容易产生过拟合问题
- 局部连接网络
顾名思义,只有一部分权值连接。部分输入和权值卷积
- 特征提取
- 填充
在矩阵的边界上填充一些值,以增加矩阵的大小,通常用0或者复制边界像素来进行填充
- 步长
- 多通道卷积
- 池化
使用局部统计特征,如均值或最大值。解决特征过多问题
- 卷积神经网络结构
由多个卷积层和下采样层构成,后面可连接全连接网络
LeNet-5网络
网络结构: