机器学习入门~理解反向传播算法

最新推荐文章于 2022-05-22 20:00:00 发布

「已注销」

最新推荐文章于 2022-05-22 20:00:00 发布

阅读量161

点赞数

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/fatfairyyy/article/details/114676665

版权

机器学习专栏收录该内容

43 篇文章 0 订阅

订阅专栏

前向传播的过程

在这里插入图片描述
上面的 +1 为偏置单元，故第一，二，三层只有两个神经元，不算偏执单元。
对于前向传播，假设我们有输入数据 (x⁽ⁱ⁾,y⁽ⁱ⁾) 👇。

因此，输入层设置的值为x₁⁽ⁱ⁾和x₂⁽ⁱ⁾，对其进行前向传播，两个值传播到了第一个隐藏层，我们可以计算出z₁⁽²⁾和z₂⁽²⁾，他们是输入单元的加权和。之后使用sigmoid函数激活z值，得到a值。之后继续向前传播👇。
在这里插入图片描述
直到通过激活z₁⁽⁴⁾得到a₁⁽⁴⁾输出值。
具体的前向传播过程：

👆以第三层第二个单元的z值计算为例，z₁⁽³⁾ = Θ₁₀⁽²⁾×1+Θ₁₁⁽²⁾×a₁⁽²⁾+Θ₁₂⁽²⁾×a₂⁽²⁾。
事实上，反向传播的过程和前向传播十分类似，只是计算顺序不同。

反向传播算法在做什么？看看代价函数

在这里插入图片描述
👆图中第二行给出了神经网络二分类算法的代价函数，令λ（正则化项） = 0，则代价函数简化为：

可以近似的认为，cost函数是假设函数输出值和真实值的方差（近似理解为平方差代价，实际上，二者的计算方式不同，但是代表的意义相同，都代表着预测值和真实值的偏差程度👇）。
在这里插入图片描述
之后，来看一下反向传播算法在做什么：

δ_j^(l)可以看作第l层第j个单元得到的激活项a的误差。举例来说，δ₁⁽⁴⁾ = y⁽ⁱ⁾ - a₁⁽⁴⁾，即表示着真实值和预测值（第四层<输出层>的激活值）之间的误差。
之后，使用计算出的δ₁⁽⁴⁾来计算δ₁⁽³⁾和δ₂⁽³⁾。之后使用新计算出的δ计算δ₁⁽²⁾和δ₂⁽²⁾。这就是反向传播的过程，它和前向传播思想相同，只不过计算顺序发生了颠倒。
具体来说，计算第二层第三个单元的δ值👇：
在这里插入图片描述
则，δ₂⁽²⁾ = Θ₁₂⁽¹⁾δ₁⁽³⁾ + Θ₂₂⁽²⁾δ₂⁽³⁾。

展开参数

以一个有10个输入层，10个隐藏层和一个输出单元的神经网络为例：
在这里插入图片描述
在Octave中使用类似于Python序列切片的方法，可以将冗杂的参数矩阵中的所有元素依次取出，并排成一个向量👇：

使用reshape方法可以将向量重塑为矩阵👇：

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门~理解反向传播算法

前向传播的过程上面的 +1 为偏置单元，故第一，二，三层只有两个神经元，不算偏执单元。对于前向传播，假设我们有输入数据 (x(i),y(i)) ????。因此，输入层设置的值为x1(i)和x2(i)，对其进行前向传播，两个值传播到了第一个隐藏层，我们可以计算出z1(2)和z2(2)，他们是输入单元的加权和。之后使用sigmoid函数激活z值，得到a值。之后继续向前传播????。直到通过激活z1(4)得到a1(4)输出值。具体的前向传播过程：????以第三层第二个单元的z值计算为例，z1(
复制链接

扫一扫

专栏目录