神经网络学习笔记（五）_连线相乘分线相加什么意思-CSDN博客

本文链接：https://blog.csdn.net/dyc941126/article/details/45312771

这篇笔记探讨了神经网络中利用链式法则求解隐层误差梯度的问题。从链式求导法则出发，详细介绍了如何计算隐层误差的偏导数和梯度，旨在简化复杂的求解过程。

摘要由CSDN通过智能技术生成

上一章我们讨论了求输出层激励的梯度和输出层预激励的梯度的方法，可以发现，求解过程极其复杂，本章将从链式法则入手，推导出各隐层的参数梯度的一般形式。

一、链式求导法则

回顾高数的知识，若一个函数可写成若干个中间结果，即 $p(a)=p(q_1(a),...q_i(a),...,q_n(a))$ ，则有

\partial p ( a ) \partial a = \sum i \partial p ( a ) \partial q i ( a ) \partial q i ( a ) \partial a

$\frac{\partial p(a)}{\partial a}=\sum_i\frac{\partial p(a)}{\partial q_i(a)}\frac{\partial q_i(a)}{\partial a}$ 即所谓“连线相乘，分线相加”。
为了求隐层参数梯度，可以令：

这里写图片描述

如上图所示，对于第2个隐层的第 $j$ 个单元，按照上述对应关系，我们有：

参数	此处对应的元素
$a$ $h^{(2)}(x)_j$ $q_i(a)$ $a^{(3)}(x)_i$ $p(a)$ $l(f(x),y)$ 二、隐层误差梯度 1.隐层误差偏导对于第 $k$ 个隐层的第

参数

此处对应的元素

a $a$

h(2)(x)j $h^{(2)}(x)_j$

qi(a) $q_i(a)$

a(3)(x)i $a^{(3)}(x)_i$

p(a) $p(a)$

l(f(x),y) $l(f(x),y)$

对于第 $k$ 个隐层的第