caffe优化方法

最新推荐文章于 2019-02-19 20:15:56 发布

奋斗啊哈

最新推荐文章于 2019-02-19 20:15:56 发布

阅读量1.4k

点赞数

分类专栏： caffe 文章标签： caffe solver 优化 loss 梯度

本文链接：https://blog.csdn.net/foolsnowman/article/details/51345734

版权

caffe 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

caffe中的solver负责处理模型优化过程，通过网络前向传播产生的loss和后向传播产生的梯度进行模型优化（更新模型中的权重）来降低loss.
caffe中的solver有：

Stochastic Gradient Descent (type: “SGD”)
AdaDelta (type:”AdaDelta”)
Adaptive Gradient (type: “AdaGrad”)
Adam (type: “Adam”)
Nesterov’s Accelerated Gradient (type: “Nesterov”)
RMSprop (type: “RMSProp”)

solver是关于损失函数最小的优化问题的求解.
其中前向传播计算给定数据集 $D$ 的损失表达式为

L (W) = 1 | D | \sum i | D | f W (X (i)) + λ r (W)

$L(W) = \frac{1}{|D|} \sum_i^{|D|} f_W\left(X^{(i)}\right) + \lambda r(W)$ 其中，

fW $f_W$ 是给定数据集

D $D$ 上的损失函数，

r(W) $r(W)$ 为正则化项，

λ $\lambda$ 是正则化项的权重，称为weight decay,用于防止过拟合.由于

|D| $|D|$ 往往很大，所以将其划分为多个mini-batch

N,|N|<<|D| $N,|N|\lt\lt |D|$ ，每次迭代计算下面的损失：

L (W) \approx 1 N \sum i N f W (X (i)) + λ r (W)

$L(W) \approx \frac{1}{N} \sum_i^N f_W\left(X^{(i)}\right) + \lambda r(W)$

后向传播更新网络权重

W t + 1 = W t + Δ W

$W_{t+1} = W_t + \Delta W$ 其中权重更新量

ΔW $\Delta W$ 的计算涉及到

∇fW $\nabla f_W$ ,

∇r(W) $\nabla r(W)$ 梯度信息以及其他针对不同优化策略的计算量。
不同的优化策略只是权重更新方法不同。

SGD

随机梯度下降（Stochastic gradient descent）

V t + 1 = μ V t - α \nabla L (W t) W t + 1 = W t + V t + 1

$V_{t+1} = \mu V_t - \alpha \nabla L(W_t) \\ W_{t+1} = W_t + V_{t+1}$ 其中，

μ $\mu$ 是momentum，是更新量

Vt+1 $V_{t+1}$ 的权重,

α $\alpha$ 是学习率，是负梯度的的权重。
学习率的更新策略有：

// The learning rate decay policy. The currently implemented learning rate
// policies are as follows:
//    - fixed: always return base_lr.
//    - step: return base_lr * gamma ^ (floor(iter / step))
//    - exp: return base_lr * gamma ^ iter
//    - inv: return base_lr * (1 + gamma * iter) ^ (- power)
//    - multistep: similar to step but it allows non uniform steps defined by
//      stepvalue
//    - poly: the effective learning rate follows a polynomial decay, to be
//      zero by the max_iter. return base_lr (1 - iter/max_iter) ^ (power)
//    - sigmoid: the effective learning rate follows a sigmod decay
//      return base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
//
// where base_lr, max_iter, gamma, step, stepvalue and power are defined
// in the solver parameter protocol buffer, and iter is the current iteration.

参见：/caffe-master/src/caffe/proto/caffe.proto，在线的点击这里

AdaDelta

奋斗啊哈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
caffe优化方法

caffe中的solver负责处理模型优化过程，通过网络前向传播产生的loss和后向传播产生的梯度进行模型优化（更新模型中的权重）来降低loss. caffe中的solver有：Stochastic Gradient Descent (type: “SGD”)AdaDelta (type:”AdaDelta”)Adaptive Gradient (type: “AdaGrad”)Adam
复制链接

扫一扫

专栏目录