Neural Network(4)-Gradient Descent Rule, Sigmoid

最新推荐文章于 2023-04-08 23:51:56 发布

爱丁堡AI学习ing

最新推荐文章于 2023-04-08 23:51:56 发布

阅读量417

点赞数 1

分类专栏： Neural Network 文章标签：深度学习人工智能神经网络随机梯度下降算法

本文链接：https://blog.csdn.net/qq_42141943/article/details/105614334

版权

Neural Network 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

梯度递减-单层感知器以及sigmoid 激活函数

1. 单层感知器的梯度递减
2. Sigmoid 激活函数

1. 单层感知器的梯度递减

1.1 目的

替代了原来的学习法则
用梯度下降去寻找假设空间
假设空间：转自：https://blog.csdn.net/zmdsjtu/article/details/52689392
在这里插入图片描述

1.2 重新定义了错误测量

感知器原则不再适用因为其不可微
在这里插入图片描述

1.3 梯度训练法则

在这里插入图片描述
沿着错误下降最快的方向(错误沿权重下降最快的方向因为调节的是权重) 即梯度的反

为了理解梯度下降我们显化所有权重和相关联的错误值
在这里插入图片描述
error surface must be parabolic with a single global minimum

下面演示为什么是沿着梯度的反方向趋近全局或者局部最小值

梯度即为方向导数即为正负代表递增或递减
因此如果递增那之后的越来越大误差肯定不是最小因此将权重减小倒回去找
如果递减那之后误差越来越小因此将权重增加往前面去找总之和梯度相反。

1.4 梯度递减公式的推导

在这里插入图片描述
其中O_e ＝W_i 与 X_ie 乘积 w_i 对应的是其中一个权重(单一权重) x_ie对应的是一个输入pattern中于W_i相连的那个输入部分其它的部分都不含W_i就省去了

1.41 批次更新

在这里插入图片描述
注意这里是把所有的权重更新加起来最后再更新

1.42 增量梯度递减

上述的梯度递减面对两个问题:

收敛时间很长因为每次加的太多了可能跳过了最优解(每次都是在旧的权重上计算)
如果有很多局部最小值很可能会找不到那个全局最小值因为掉进局部最小陷阱中了

Whereas the gradient descent rule updates the weights after calculating the whole error accumulated from all examples, the incremental version approximates the gradient descent error decrease by updating the weights after each training example
简而言之梯度递减法则等所有example跑完后更新一次权重而增量则每次example都更新

在这里插入图片描述