1. 简述
2. keras基本流程
以手写数字识别为例
1. 定义网络结构
2. 设定损失函数的形式
3. 模型拟合
当batch_size=1时,就是 随机梯度下降 Stochastic gradient descent
我们知道Stochastic gradient descent 比 50000个数据一起算要快很多。但是,当batch_size>1,是也会提高运算速度,比如在手写数字识别时,batch_size=10 的最终速度要大于 batch_size=1的速度。为什么?
原因是: GPU 与 矩阵运算
如果有GPU,那么batch_size越大,运算得越快。但是batch_size太大,效果可能不会特别好。