深度学习(五):神经网络训练不起来怎么办

深度学习(五):神经网络训练不起来怎么办

梯度很小的时候

在这里插入图片描述
无法判断是 l o c a l   m i n i m a local\ minima local minima还是 s a d d l e   p o i n t saddle\ point saddle point,以下是判断的一个方法的数学推导 T a y l e r   S e r i e s   A p p r o x i m a t i o n Tayler\ Series\ Approximation Tayler Series Approximation
首先, L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) \mathbf {L(\theta) \approx L(\theta^{'})+(\theta-\theta^{'})^T {\color {green}g}+\frac {1}{2}(\theta-{\color {green}\theta^{'}})^T{\color{red}H}(\theta-{\color {green}\theta^{'}})} L(θ)L(θ)+(θθ)Tg+21(θθ)TH(θθ),其中, G r a d i e n t   g \mathbf {Gradient}\ {\color {green}g} Gradient g可以用如下的向量表示:
g = ∇ L ( θ ′ ) g i = ∂ L ( θ ) ∂ θ i {\color {green}g}=\nabla L(\theta^{'})\qquad \qquad\qquad \qquad {\color {green}g}_{i}=\frac{\partial L(\theta)}{\partial \theta_{i}} g=L(θ)gi=θiL(θ)
H H H H e s s i a n Hessian Hessian矩阵,可以表示为如下形式:
H i j = ∂ 2 ∂ θ i ∂ θ j L ( θ ′ ) \mathbf {H_{ij}=\frac{\partial^2}{\partial \theta_{i}\partial \theta_j}L(\theta^{'})} Hij=θiθj2L(θ)
下图是公式的推导具体过程,通过下图对 H e s s i a n Hessian Hessian矩阵的特征值的大小的判断可以判断出是 l o c a l   m i n i m a local\ minima local minima还是 s a d d l e   p o i n t saddle\ point saddle point

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

下面是对 G r a d i e n t \mathbf {Gradient} Gradient的图的直观表示方法:
在这里插入图片描述

b a t c h \mathbf {batch} batch m o m e n t u m \rm {\mathbf {momentum}} momentum的训练小技巧

接下来要介绍下深度学习中关于 b a t c h \mathbf {batch} batch m o m e n t u m \rm {\mathbf {momentum}} momentum的相关基础姿势的简单介绍。敬请期待~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值