目标:找出合适的参数组
θ
\bold\theta
θ
x
n
x^n
xn : training data
L
(
θ
)
=
∑
n
=
1
N
l
n
(
θ
)
L(\theta)=\sum_{n=1}^Nl^n(\theta)
L(θ)=∑n=1Nln(θ)
在课程中,用的是
C
n
(
θ
)
C^n(\theta)
Cn(θ)
对其做GD,从而搜索合适的参数
如何确定每一个距离对参数的偏导数??
假设每一层结构如下;
可以直接计算z对每一个w参数的偏微分,即
在求解第二项,误差函数对z的偏微分时,继续利用chain rule,假设结构如下,用sigmoid function:
继续计算上图中的第二项,即误差函数对于a的偏微分
假定后续的结构如下图:
继续利用求导的相关法则,从图中看出,第一层得到的a会影响下一层中的
z
′
z^{'}
z′以及
z
′
′
z^{''}
z′′,,根据图中,因此可以得到
z
′
z^{'}
z′的计算式,可得到
将上面的表达式画成一个神经元的图示,此时的输入是
z
′
z^{'}
z′以及
z
′
′
z^{''}
z′′,输出是z,则图示如下
说明:上图来自上课的截图,图中的C就是误差,和前面的l是一样的
这一点就是BP的核心了。
李宏毅机器学习-- Backpropagation
最新推荐文章于 2024-07-11 15:21:16 发布