神经网络基础问答

最新推荐文章于 2022-08-31 19:21:40 发布

northeastsqure

最新推荐文章于 2022-08-31 19:21:40 发布

阅读量591

点赞数

分类专栏：深度学习数学文章标签：神经网络

本文链接：https://blog.csdn.net/northeastsqure/article/details/112246961

版权

深度学习同时被 2 个专栏收录

61 篇文章 1 订阅

订阅专栏

数学

6 篇文章 0 订阅

订阅专栏

1.神经网络权值更新时候，W-学习率 *(损失函数对w偏导数)，为什么是减？

理解1：假设网络是:y=wx, 其中w就是一个数，再具体比如是：x，其中w=1

而目标函数是 w=0.75, y=0.75x

那么样本是(2,1.5), 网络预测值是：wx=x=2，即(2, 2)。那么损失函数是

$E=\frac{1}{2}(wx_0 - y_0)^2=\frac{1}{2}(w^2x_0^2-2wx_0y_0+y_0^2)=(2-1.5)^2=0.25$

E对w求偏倒

$\frac{\partial E}{\partial w}=x_0^2w-x_0y_0=1$

网络学习目标是predict线向target线靠近，即w 要减小，那么W-学习率 *(损失函数对w偏导数) = 1 - 0.1*1=0.9,正在想目标斜率0.75靠近, 这里如果换成加，那么w就变大了，从而远离目标直线了。

反过来下图中predict线变成target, target线变成predict,那么样本点是(2, 2), 预测的点是(2, 1.5), y=0.75x, 从而E=0.25, 对w求偏导数是-1，那么 W-学习率 *(损失函数对w偏导数)=0.75-0.1*(-1)=0.85, 如果变成加，同样的，网络直线就远离target直线了。

思路2：分析损失函数出发

$E=\frac{1}{2}(wx_0 - y_0)^2=\frac{1}{2}(w^2x_0^2-2wx_0y_0+y_0^2)$

给定x0,y0, w为变量， E是一个抛物线，开口向上，最小值大于等于0，那么右侧有一个w, 此处的偏导即为改点斜率，从而，E极小值对应 $w_{target}$ 的右侧，斜率为正，那么只有w只有减去一个很小的值，才能向 $w_{target}$ 移动，同理如果神经网络权值w在 $w_{target}$ 左侧，那么偏导为负数，这个时候减去很小的负数，就是加一个数，即 $w_{target}$ 左侧点，向右侧移动。