神经网络前向传播和后向传播解读

最新推荐文章于 2024-07-19 19:24:55 发布

南山F1

最新推荐文章于 2024-07-19 19:24:55 发布

阅读量3.9k

点赞数 11

分类专栏： python深度学习文章标签：深度学习 BP算法神经网络前向传播后向传播

python深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

序言：
虽然训练深度学习模型已经有一段时间了，但是总是觉得哪里不太对，最近想先从神经网络的前向和后向传播推导一遍，以后会再加上卷积。这里只是给出比较容易理解的BP算法解读。本文大部分参考https://blog.csdn.net/cc514981717/article/details/73832119，在其基础上加入一些自己的理解，如有侵权请告知删除。

下面给出一个简单的神经网络结构图１：
图１　神经网络结构图
其中，i1,i2为输入层，h1,h2为隐藏层，o1,o2为输出层，b1,b2为偏置，sigmoid为激活函数。

前向传播
i1->h1:
$net_{h1} = i_1 \times w_1 + i_2 \times w_2 + b_1 \times 1$
h1->sigmoid:
$out_{h1} = sigmoid(net_{h1}) = \frac{1}{1 + e^{-net_{h1}}}$
net_h2、out_h2的计算同理
out_h1->o1:
$net_{o1} = out_{h1} \times w_5 + out_{h2} \times w_6 + b_2 \times 1$
o1->sigmoid:
$out_{o1} = sigmoid(net_{o1}) = \frac{1}{1 + e^{-net_{o1}}}$
net_o2、out_02的计算同理

后向传播
总误差：
$E_{total} = \sum\frac{1}{2}(target - output)^2$
隐藏层权值更新(假设对 $w_5$ )：
$\frac{\partial E_{total}}{\partial w_5}$
采用链式求导法则：
$\frac{\partial E_{total}}{\partial w_5}＝\frac{\partial E_{total}}{\partial out_{o1}} \times \frac{\partial out_{o1}}{\partial net_{o1}} \times \frac{\partial net_{o1}}{\partial w_5}$
其中 $E_{total} = \frac{1}{2}(gt_{o1}-out_{o1})^2 + \frac{1}{2}(gt_{o2} - out_{o2})^2$
所以 $\frac{\partial E_{total}}{\partial out_{o1}} = out_{o1} - gt_{o1}$
$\frac{\partial out_{o1}}{\partial net_{o1}} = \frac{e^{-net_{o1}}}{(1+e^{-net_{o1}})^2 } = out_{o1} \times (1-out_{o1})$
$\frac{\partial net_{o1}}{\partial w_5} = out_{h1}$
故
$\frac{\partial E_{total}}{\partial w_5}＝\frac{\partial E_{total}}{\partial out_{o1}} \times \frac{\partial out_{o1}}{\partial net_{o1}} \times \frac{\partial net_{o1}}{\partial w_5} = (out_{o1} - gt_{o1}) \times out_{o1}(1-out_{o1}) \times out_{h1}$
其中， $gt_{o1}$ 表示o1的ground truth

更新权重
对于 $w_5$
$w_5^+ = w_5 - \eta \times \frac{\partial E_{total}}{\partial w_5}$

python代码
下面是一个简单的python写的神经网络

import numpy as np
def sigmoid(x, deriv = False):
    if (deriv == True):
        return x * (1-x)
    return 1/(1+np.exp(-x))
x = np.array([[0,0,1],
              [0,1,1],
              [1,0,1],
              [1,1,1],
              [0,0,1]]
)
y = np.array([[0],
              [1],
              [1],
              [0],
              [0]]
)
np.random.seed(22)
w0 = 2 * np.random.random((3,4)) - 1
w1 = 2 * np.random.random((4,1)) - 1
for j in xrange(60000):
    l0 = x
    l1 = sigmoid(np.dot(l0, w0))
    l2 = sigmoid(np.dot(l1, w1))
    l2_error = y - l2
    if (j%5000) == 0:
        print 'Error'+str(np.mean(np.abs(l2_error)))
    l2_delta = l2_error * sigmoid(l2, deriv=True)
    l1_error = l2_delta.dot(w1.T)
    l1_delta = l1_error * sigmoid(l1, deriv=True)
    
    w1 += l1.T.dot(l2_delta)
    w0 += l0.T.dot(l1_delta)

最后
第一次在csdn写公开的博客，请大家多多指教
参考：
１．https://blog.csdn.net/cc514981717/article/details/73832119
２．唐宇迪深度学习入门课程