梯度下降法与反向传播

最新推荐文章于 2024-03-09 13:49:14 发布

Vinicier

最新推荐文章于 2024-03-09 13:49:14 发布

阅读量1.5w

点赞数 5

分类专栏：深度学习神经网络机器学习文章标签：深度学习神经网络机器学习梯度下降法-梯度下降法-牛顿法-高斯牛顿法-levenberg-marquardt算法反向传播算法

本文链接：https://blog.csdn.net/u010976453/article/details/78493563

版权

本文介绍了梯度下降法在深度学习中的应用，讨论了随机初始化权重的重要性，解释了数值梯度、梯度检查和Mini-Batch的概念。接着，详细阐述了反向传播的过程，通过链式法则推导神经网络的损失，并展示了前向传播和反向传播在神经网络计算中的作用。最后，提到了批量梯度下降法和代价函数的优化目标。

摘要由CSDN通过智能技术生成

梯度下降法与反向传播

主要内容：

梯度下降法

最优化
梯度下降

反向传播

梯度与偏导
链式法则
直观理解
Sigmoid 例子

1. 梯度下降（Gradient descent）

初始权重不要都置为0，可用高斯分布。 随机初始化的目的是使对称失效。如果所有权重初始化为相同初始值，那么所有的隐藏层单元最终会得到与输入值相关的、相同的函数。

import numpy as np
W = np.random.randn(m,n) * 0.001 # 正态分布随机数

在多维变量函数中，函数在某一点的切线的斜率（存在多个，如三维中所有切线组成一个切面）就是方向导数；梯度是一个矢量，其方向上的方向导数最大，其大小正好就是此最大方向导数。

数值梯度：由导数的定义来求解梯度，再迭代更新。特点是不容易出错，但是计算复杂，速度慢。

g r a d = f ( x + h ) - f ( x ) h

$grad =\frac{f(x+h)-f(x)}{h}$
解析梯度：由损失函数计算对应的偏导解析式，再由解析式迭代计算梯度。特点是 计算速度很快，但是 容易出错。

\partial f \partial x

$\frac{\partial f}{\partial x}$
梯度下降迭代：

# 很多神经网络库的核心迭代代码
while True:
    weights_grad = evaluate_gradient(loss_fun,data,weights)
    weights += - step_size * weights_grad # 梯度下降更新权重参数

梯度检查\检测：可以选取部分样例先计算解析梯度和数值梯度，对比较结果和校正，然后采取解析梯度大胆进行解析计算，这个过程就叫做梯度检查。

Mini-Bacth：对整个训练数据集的样本都算一篇损失函数，以完成参数的迭代是一件非常耗时的事情。通常的做法是采样出一个子集在其上计算梯度。

while True:
    data_batch = sample_training_data(data,256) # 抽样256个样本作为一个batch
    weights_grad = evaluate_gradient(loss_fun,data_batch,weights)
    weights += - step_size * weights_grad # 更新权重参数

2. 反向传播（Backpropagation）

链式法则：若函数 $u=\psi(t)$ ， $v=\phi(t)$ 在点 $t$ 可导， $z= f(u,v)$ ，有

\partial z \partial t = \partial z \partial u \partial u \partial t + \partial z \partial v \partial v \partial t

$\frac{\partial z}{\partial t} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial t} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial t}$
Sigmoid 函数：