Keras后端基于Tensorflow、Theano以及CNTK编写而成,Keras中文文档参考
http://keras-cn.readthedocs.io/en/latest/
Keras序贯模型搭建神经网络模型的一般步骤:
1. 从keras.models库引入Sequential类
2. 定义Sequential类的对象model
3. 向model里add每一层(隐藏层,激活层等)
4. 逐层加完之后对model进行compile:编译模型时必须指明损失函数和优化器,如果你需要的话,也可以自己定制损失函数。Keras里也封装好了很多优化器和损失函数。
5. 利用以上定义好的model和处理好的数据(主要是维度)fit建模:可以设置每批训练数batch和训练周期epoch
6. 对训练好的model进行evaluate和迭代修正
7. 利用训练好的model进行predict
第4步里可选的优化器:
1.) 标准的梯度下降法、SGD、mini-batch GD
wt=wt−1+η∇wf(wt−1)
SGD较慢且易陷入鞍点,局部最优
2.) Momentum
{vt=γvt−1+η∇wf(wt−1)wt=wt−1−vt
γ 一般取0.9
3.) NAG
{vt=γvt−1+η∇wf(wt−1−γvt−1)wt=wt−1−vt
NAG是对Momentum的改进
4.) Adagrad
⎧⎩⎨Gt=Gt−1+∇wf(wt−1)2wt=wt−1−ηGt−1+ε√∇wf(wt−1)
ε 一般取1e-8,Adagrad对Momentum的学习率进行了自适应改进
5.) RMSprop
⎧⎩⎨Gt=γGt−1+(1−γ)∇wf(wt−1)2wt=wt−1−ηGt−1+ε√∇wf(wt−1)
γ 一般取0.9,RMSprop是对Adagrad里 Gt 迭代取值的改进
6.) Adadelta
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪Gt=γGt−1+(1−γ)∇wf(wt−1)2Et=γEt−1+(1−γ)(Δwt)2Δwt=−Et−1+ε√Gt+ε√∇wf(wt)wt=wt−1+Δwt−1
γ 一般取0.9
7.) Adam
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪mt=β1mt−1+(1−β1)∇wf(wt)vt=β2vt−1+(1−β2)∇wf(wt)2mˆt=mt1−βt1,vˆt=vt1−βt2wt=wt−1−ηmˆtvˆt√+ε
β1 一般取0.9, β2 一般取0.999
import numpy as np
from keras.datasets import mnist
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
...
# 定义优化器
adam = Adam(lr=1e-4)
# 定义优化器,loss function,训练过程中计算准确率
model.compile(optimizer=adam,loss='categorical_crossentropy',metrics=['accuracy'])