Keras框架优化器参数

最新推荐文章于 2024-06-26 20:37:05 发布

thinker_1120

最新推荐文章于 2024-06-26 20:37:05 发布

阅读量2.2k

点赞数 2

分类专栏： Keras和Tensorflow

本文链接：https://blog.csdn.net/cymy001/article/details/78641346

版权

Keras和Tensorflow 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Keras后端基于Tensorflow、Theano以及CNTK编写而成，Keras中文文档参考
http://keras-cn.readthedocs.io/en/latest/

Keras序贯模型搭建神经网络模型的一般步骤：

1. 从keras.models库引入Sequential类
2. 定义Sequential类的对象model
3. 向model里add每一层（隐藏层，激活层等）
4. 逐层加完之后对model进行compile：编译模型时必须指明损失函数和优化器，如果你需要的话，也可以自己定制损失函数。Keras里也封装好了很多优化器和损失函数。
5. 利用以上定义好的model和处理好的数据（主要是维度）fit建模：可以设置每批训练数batch和训练周期epoch
6. 对训练好的model进行evaluate和迭代修正
7. 利用训练好的model进行predict

第4步里可选的优化器：

1.) 标准的梯度下降法、SGD、mini-batch GD

w t = w t - 1 + η \nabla w f (w t - 1)

$w_t=w_{t-1}+\eta \nabla_w f(w_{t-1})$
SGD较慢且易陷入鞍点，局部最优

2.) Momentum

{v t = γ v t - 1 + η \nabla w f (w t - 1) w t = w t - 1 - v t

$\begin{cases} v_t=\gamma v_{t-1}+\eta\nabla_w f(w_{t-1}) \cr w_t=w_{t-1}-v_t\end{cases}$

γ $\gamma$ 一般取0.9

3.) NAG

{v t = γ v t - 1 + η \nabla w f (w t - 1 - γ v t - 1) w t = w t - 1 - v t

$\begin{cases} v_t=\gamma v_{t-1}+\eta\nabla_w f(w_{t-1}-\gamma v_{t-1}) \cr w_t=w_{t-1}-v_t\end{cases}$
NAG是对Momentum的改进

4.) Adagrad

⎧ ⎩ ⎨ G t = G t - 1 + \nabla w f (w t - 1) 2 w t = w t - 1 - η G t - 1 + ε \sqrt \nabla w f (w t - 1)

$\begin{cases} G_t=G_{t-1}+\nabla_w f(w_{t-1})^2 \cr w_t=w_{t-1}-\frac{\eta}{\sqrt{G_{t-1}+\varepsilon}}\nabla_w f(w_{t-1})\end{cases}$

ε $\varepsilon$ 一般取1e-8，Adagrad对Momentum的学习率进行了自适应改进

5.) RMSprop

⎧ ⎩ ⎨ G t = γ G t - 1 + (1 - γ) \nabla w f (w t - 1) 2 w t = w t - 1 - η G t - 1 + ε \sqrt \nabla w f (w t - 1)

$\begin{cases} G_t=\gamma G_{t-1}+(1-\gamma)\nabla_w f(w_{t-1})^2 \cr w_t=w_{t-1}-\frac{\eta}{\sqrt{G_{t-1}+\varepsilon}}\nabla_w f(w_{t-1})\end{cases}$

γ $\gamma$ 一般取0.9，RMSprop是对Adagrad里

Gt $G_t$ 迭代取值的改进

6.) Adadelta

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ G t = γ G t - 1 + (1 - γ) \nabla w f (w t - 1) 2 E t = γ E t - 1 + (1 - γ) (Δ w t) 2 Δ w t = - E t - 1 + ε \sqrt G t + ε \sqrt \nabla w f (w t) w t = w t - 1 + Δ w t - 1

$\begin{cases} G_t=\gamma G_{t-1}+(1-\gamma)\nabla_w f(w_{t-1})^2 \cr E_t=\gamma E_{t-1}+(1-\gamma)(\Delta w_t)^2 \cr \Delta w_t=-\frac{\sqrt{E_{t-1}+\varepsilon}}{\sqrt{G_{t}+\varepsilon}}\nabla_w f(w_{t}) \cr w_t=w_{t-1}+\Delta w_{t-1} \end{cases}$

γ $\gamma$ 一般取0.9

7.) Adam

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ m t = β 1 m t - 1 + (1 - β 1) \nabla w f (w t) v t = β 2 v t - 1 + (1 - β 2) \nabla w f (w t) 2 m ˆ t = m t 1 - β t 1, v ˆ t = v t 1 - β t 2 w t = w t - 1 - η m ˆ t v ˆ t \sqrt + ε

$\begin{cases} m_t=\beta_1 m_{t-1}+(1-\beta_1)\nabla_w f(w_{t}) \cr v_t=\beta_2 v_{t-1}+(1-\beta_2)\nabla_w f(w_t)^2 \cr \widehat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}}, \widehat{v}_{t}=\frac{v_{t}}{1-\beta_{2}^{t}} \cr w_t=w_{t-1}-\eta \frac{\widehat{m}_t}{\sqrt{\widehat{v}_t}+\varepsilon} \end{cases}$

β1 $\beta_1$ 一般取0.9，

β2 $\beta_2$ 一般取0.999

import numpy as np
from keras.datasets import mnist
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
...
# 定义优化器
adam = Adam(lr=1e-4)
# 定义优化器，loss function，训练过程中计算准确率
model.compile(optimizer=adam,loss='categorical_crossentropy',metrics=['accuracy'])