两层神经网络的参数求导过程

文章详细介绍了两层神经网络的结构,包括权重矩阵和偏置向量,以及使用交叉熵损失函数的情况。通过链式法则计算了损失函数对网络各层参数的偏导数,涉及到了激活函数的导数和哈达玛积的概念,这些是反向传播算法的关键部分,用于更新网络的权重以优化性能。
摘要由CSDN通过智能技术生成

假设输入数据 x ∈ R n x\in\mathbb{R}^n xRn,两层神经网络有以下形式:

在这里插入图片描述
其中 W 1 ∈ R h × n W_1\in\mathbb{R}^{h\times n} W1Rh×n W 2 ∈ R m × h W_2\in\mathbb{R}^{m\times h} W2Rm×h 分别是第一层和第二层的权重矩阵, b 1 ∈ R h b_1\in\mathbb{R}^h b1Rh b 2 ∈ R m b_2\in\mathbb{R}^m b2Rm 分别是第一层和第二层的偏置向量, σ \sigma σ 是激活函数。

梯度是一个关于参数的向量,指出每个参数的变化方向,以便在优化过程中更新参数。对于每个参数,可以计算它对目标函数的梯度。在这里,我们将使用交叉熵损失函数作为目标函数:

在这里插入图片描述
其中 y ∈ R m y\in\mathbb{R}^m yRm 是真实标签向量, y ^ ∈ R m \hat{y}\in\mathbb{R}^m y^Rm 是模型预测标签向量。

我们需要求出每个参数的偏导数,以计算梯度。下面是各参数的偏导数:

在这里插入图片描述
其中 ⊙ \odot 是哈达玛积, σ ′ \sigma' σ σ \sigma σ 的导数。

最终,对于每个参数,我们可以将其梯度表示为:
在这里插入图片描述
使用梯度下降等算法,可以通过调整参数来最小化损失函数。


为了更好地理解上面公式中的符号和求导过程,下面进行一些详细的解释和推导。

首先,对于神经网络中的每个节点,都有一个加权和和一个激活函数。对于第一层,输入 x x x 经过加权和后得到:

其中, W 1 W_1 W1 是第一层的权重矩阵, b 1 b_1 b1 是第一层的偏置向量。然后, z 1 z_1 z1 经过激活函数 σ \sigma σ 得到:

在这里插入图片描述

h 1 h_1 h1 作为第二层的输入,经过加权和后得到:

在这里插入图片描述
最后, z 2 z_2 z2 经过激活函数 σ \sigma σ 得到网络的输出:
在这里插入图片描述
这个输出向量 y ^ \hat{y} y^ 是模型对输入 x x x 的预测结果。

现在,我们来推导损失函数对参数的梯度。首先,我们需要求出损失函数关于网络输出 y ^ \hat{y} y^ 的偏导数:

在这里插入图片描述
然后,根据链式法则,我们可以计算出损失函数对最后一层加权和 z 2 z_2 z2 的偏导数:

在这里插入图片描述
其中, σ ′ ( z 2 , i ) \sigma'(z_{2,i}) σ(z2,i) 表示 σ \sigma σ 函数在 z 2 , i z_{2,i} z2,i 处的导数。

接下来,我们需要计算损失函数对第二层参数 W 2 W_2 W2 b 2 b_2 b2 的偏导数。根据链式法则,我们可以得到:

在这里插入图片描述
对于第一层,根据链式法则,我们可以计算出损失函数对第一层加权和 z 1 z_1 z1 的偏导数:

在这里插入图片描述
其中, W 2 , i , j W_{2,i,j} W2,i,j 表示第二层的权重矩阵中第 i i i 行第 j j j 列的元素。

最后,我们可以计算损失函数对第一层参数 W 1 W_1 W1 b 1 b_1 b1 的偏导数:

在这里插入图片描述
其中, x k x_k xk 表示输入向量 x x x 中第 k k k 个元素。

综上所述,我们可以得到损失函数关于所有参数的偏导数公式。利用这些公式,我们可以使用梯度下降等优化算法来更新参数,从而不断改进神经网络的性能。


⊙ \odot 符号表示矩阵的按元素乘法,也称为哈达玛积。例如,如果有两个同样大小的矩阵 A A A B B B,则它们的哈达玛积为:

在这里插入图片描述
其中, a i , j a_{i,j} ai,j b i , j b_{i,j} bi,j 分别表示矩阵 A A A B B B 中第 i i i 行第 j j j 列的元素。

在神经网络中,哈达玛积的应用比较广泛。例如,在反向传播算法中,我们需要计算两个矩阵的按元素乘积,以便计算损失函数对权重参数的偏导数。具体地,对于两个相同大小的矩阵 A A A B B B,它们的按元素乘积 C = A ⊙ B C = A \odot B C=AB 的每个元素 c i , j = a i , j ⋅ b i , j c_{i,j} = a_{i,j} \cdot b_{i,j} ci,j=ai,jbi,j,然后将 C C C 作为中间变量用于计算梯度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高山莫衣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值