机器学习多层感知机梯度推导

最新推荐文章于 2023-03-26 21:24:05 发布

光明的心2

最新推荐文章于 2023-03-26 21:24:05 发布

阅读量777

点赞数 1

分类专栏：神经网络专栏

本文链接：https://blog.csdn.net/qq_43680142/article/details/105072910

版权

神经网络专栏专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习多层感知机梯度推导

在我的前一篇文章中，已经推导出了单层感知机梯度的计算公式
单层感知机梯度推导

在这里插入图片描述
$\frac {\varphi_E} {\varphi_{w_{j_0}}} = (O - t) \sigma(x_0^1))(1 - \sigma(x_0^1))) {x_j^0} \\$

激活函数不变：
$\frac 1 {1 + e^{-x}}$
激活函数求导：
$\sigma(x)(1 - \sigma(x)) \\ (具体过程参照上面链接)$
损失函数：MSE
${\frac 1 2}\Sigma_{i=0}^m(O_k - t_k)^2$
多层感知机：
在这里插入图片描述
$设置前一层对后一层的权值为W{_j}{_k}\\j为前一层的结点位置，k为后一层的结点位置，如图：$

$\frac {\varphi_E} {\varphi_{W_{j_k}}}$
$\frac {\varphi_E} {\varphi_{W_{j_k}}} = \frac {\varphi{{\frac 1 2}\Sigma_{i=0}^m(O_k - t_k)^2}} {\varphi_{W_{j_k}}}$
$k时导数不为0所以\\ \frac {\varphi_E} {\varphi_{W_{j_k}}} = \frac {\varphi{{\frac 1 2}(O_k - t_k)^2}} {\varphi_{W_{j_k}}}$
$例如 (0_0 - t_0)^2 + (0_1 - t_1)^2对W{_0}{_1}求导从图中可以看出\\W{_0}{_1}对(0_0 - t_0)^2并没有贡献所以相当于常数项求导$
$\frac {\varphi_E} {\varphi_{W_{j_k}}} = (O_k - t_k){\frac {\varphi{O_k }} {\varphi_{W_{j_k}}}}$
$\sigma(x) = O_k$
$\frac {\varphi_E} {\varphi_{W_{j_k}}} = (O_k - t_k){\frac {\varphi{\sigma(x_k^1) }} {\varphi_{W_{j_k}}}}$
$这里使用链式法则\\ \frac {\varphi_E} {\varphi_{W_{j_k}}} = (O_k - t_k){\frac {\varphi{\sigma(x_k^1) }} {\varphi{x_k^1}}} {\frac {\varphi{x_k^1}} {\varphi_{W_{j_k}}} }$
$结合前面的对激活函数求导公式:\\ \frac {\varphi_E} {\varphi_{W_{j_k}}} = (O_k - t_k) \sigma(x_k^1)(1 - \sigma(x_k^1)) {\frac {\varphi{x_k^1}} {\varphi_{W_{j_k}}} }$
$\frac {\varphi_E} {\varphi_{W_{j_k}}} = (O_k - t_k)O_k(1 - O_k) \frac {\varphi (\Sigma_{i=0}^nx_j^0 W{_j}{_k})} {\varphi_{W_{j_k}}}$
$这里同单层感知机一样,导数部分结果为W_j^0 \\ 所以最终结果为：\frac {\varphi_E} {\varphi_{W_{j_k}}} = (O_k - t_k)O_k(1 - O_k) x_j^0$
$其实，这里不光是完成了一次多层感知器梯度的求导，也是完成了一次反向传播的求解。\\这里我们知道了O_k, t_k, W_j^0 来更新W{_j}{_k},不这是通过结果反过来更新梯度吗$
注：以上图片素材来源龙良曲老师的tensorflow课程讲解

光明的心2

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
机器学习多层感知机梯度推导

机器学习多层感知机梯度推导在我的前一篇文章中，已经推导出了单层感知机梯度的计算公式单层感知机梯度推导φEφwj0=(O−t)σ(x01))(1−σ(x01)))xj0\frac {\varphi_E} {\varphi_{w_{j_0}}} = (O - t) \sigma(x_0^1))(1 - \sigma(x_0^1))) {x_j^0} \\φwj0φE=(O−t)σ...
复制链接

扫一扫