机器学习之反向传播BP算法

最新推荐文章于 2021-07-22 19:46:38 发布

薛定谔的程序喵

最新推荐文章于 2021-07-22 19:46:38 发布

阅读量78

点赞数

分类专栏：机器学习文章标签：神经网络深度学习机器学习算法人工智能

本文链接：https://blog.csdn.net/anapple00/article/details/114529608

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

导语

这是我写的第一篇关于机器学习的文章，以后还会有更多有关机器学习以及深度学习的总结，敬请期待。

给定一个方程 $f(x) = 3x^2+4x+5$ ，未知参数为 $x$ ，求 $x$ 等于多少时， $f (x)$ 有最小值，我们首先想到的是求倒数，令其等于 $0$ ：
$f^\prime(x)=6x+4=0, x=-\frac{2}{3}$
即当 $x=-\frac{2}{3}$ 时 $f (x)$ 有最小值，为 $f(-\frac{2}{3})=3.6$

其次我们还可以用梯度下降法，赋给 $x$ 一个初始值（例如 $x = 10$ ），又已知 $f^\prime(x)=6x+4$ ，梯度下降法的本质就是用 $x$ 的原坐标减去 $x$ 在某一点的斜率，使 $f (x)$ 往最小值方向走，从而得到最小值。设学习率为 $\eta=0.1$ ，即 $x$ 每走一步的幅度大小，例如
$f^\prime(10)=6\times10+4=64,\\ x^\prime=x-\eta f^\prime(10)=10-0.1\times64=3.6,$
依次类推，直到 $x$ 逼近 $-\frac{2}{3}$ 。

了解了梯度下降法的定义后，我们利用它来解决神经网络中的反向传播为题，需要定义一个损失函数cost_function，即上面的f(x)
神经网络结构如下图所示： 2层神经网络结构
其中包括1层输入层（输入量为 $x_1$ 和 $x_2$ ），1层中间层（输入为 $in^2$ ，输出为 $out^2$ ），1层输出层（输入为 $in^3$ ，输出为 $out^3$ ），我们用输出层的输出，即 $out^3$ 与标签 $\hat{y}$ 构造损失函数cost_function，里面的参数为 $\omega$ 和 $b$ ，通过反向传播算法，得到当 $\omega$ 和 $b$ 取何值时cost_function有最小值。

明确了目标之后，再来看神经网络涉及到的所有参数：
神经网络参数

前向传播过程

$\begin{bmatrix} X_1 & X_2 \end{bmatrix} \cdot \begin{bmatrix} W_{11}^{2} & W_{12}^{2} & W_{13}^{2} \\ W_{21}^{2} & W_{22}^{2} & W_{23}^{2} \end{bmatrix} + \begin{bmatrix} b_{1}^{2} & b_{2}^{2} & b_{3}^{2} \end{bmatrix} \rightarrow \begin{bmatrix} in_{1}^{2} & in_{2}^{2} & in_{3}^{2} \end{bmatrix} \mathop{\longrightarrow}\limits^{sigmoid} \begin{bmatrix} out_{1}^{2} & out_{2}^{2} & out_{3}^{2} \end{bmatrix}$

$\begin{bmatrix} out_{1}^{2} & out_{2}^{2} & out_{3}^{2} \end{bmatrix} \cdot \begin{bmatrix} W_{11}^{2} & W_{12}^{2} \\ W_{21}^{2} & W_{22}^{2} \\ W_{31}^{2} & W_{32}^{2} \end{bmatrix} + \begin{bmatrix} b_{1}^{3} & b_{2}^{3} \end{bmatrix} \rightarrow \begin{bmatrix} in_{1}^{3} & in_{2}^{3} \end{bmatrix} \mathop{\longrightarrow}\limits^{sigmoid} \begin{bmatrix} out_{1}^{3} & out_{2}^{3} \end{bmatrix}$

分别计算 $in_{1}^{2}$ 、 $in_{2}^{2}$ 、 $in_{3}^{2}$ 以及 $in_{1}^{3}$ 、 $in_{2}^{3}$ 和cost_function：

$in_{1}^{2}=W_{11}^{2} \cdot X_{1}+W_{21}^{2}X_{2} + b_{1}^{2}, out_{1}^{2}=sigmoid(in_{1}^{2}) \\ in_{2}^{2}=W_{12}^{2} \cdot X_{1}+W_{22}^{2}X_{2} + b_{2}^{2}, out_{2}^{2}=sigmoid(in_{2}^{2}) \\ in_{3}^{2}=W_{13}^{2} \cdot X_{1}+W_{23}^{2}X_{2} + b_{3}^{2}, out_{3}^{2}=sigmoid(in_{3}^{2}) \\ in_{1}^{3}=W_{11}^{3} \cdot out_{1}^{2} + W_{21}^{3} out_{2}^{2} + W_{31}^{3} out_{3}^{2} + b_{1}^{3}, out_{1}^{3}=sigmoid(in_{1}^{2}) \\ in_{2}^{3}=W_{12}^{3} \cdot out_{1}^{2}+W_{22}^{3} out_{2}^{2} + W_{32}^{3} out_{3}^{2} + b_{2}^{3}, out_{2}^{3}=sigmoid(in_{2}^{3}) \\ cost\_function = \frac{1}{2}[(out_{1}^{3}-y_{1})^{2}+(out_{2}^{3}-y_{2})^{2}]$

对应代码

# training samples 2 inputs and 2 outputs
X = np.random.rand(m, 2)
Y = np.random.rand(m, 2)

#layer 2
W2 = np.ones((2, 3))
b2 = np.ones((1, 3))
in2 = np.dot(X, W2) + b2
out2 = sigmoid(in2)

#layer 3
W3 = np.ones((3, 2))
b3 = np.ones((1, 2))
in3 = np.dot(out2, W3) + b3
out3 = sigmoid(in3)

#initial cost
cost = cost_function(out3, Y) 
print("start:", cost)

反向传播过程

反向传播主要是求cost_function对于各个 $\omega$ 和 $b$ 的偏导，要得到它们之前，需要求 $\dfrac{\partial C}{\partial in_{1}^{3}}$ 、 $\dfrac{\partial C}{\partial in_{2}^{3}}$ 以及 $\dfrac{\partial C}{\partial in_{1}^{2}}$ 、 $\dfrac{\partial C}{\partial in_{2}^{2}}$ 、 $\dfrac{\partial C}{\partial in_{3}^{2}}$ ，得到了这些值，就可以求损失函数对于任意 $\omega$ 和 $b$ 的偏导了。

$\dfrac{\partial C}{\partial in_{1}^{3}}=\dfrac{\partial C}{\partial out_{1}^{3}} \dfrac{\partial out_{1}^{3}}{\partial in_{1}^{3}}=(out_{1}^{3}-y_{1})\frac{e^{-in_{1}^{3}}}{(1+e^{-in_{1}^{3}})^{2}} \\ =(out_{1}^{3}-y_{1})\frac{1}{1+e^{-in_{1}^{3}}}(1-\frac{1}{1+e^{-in_{1}^{3}}})$

同理可得 $\dfrac{\partial C}{\partial in_{2}^{3}}$ 的值。

$\dfrac{\partial C}{\partial in_{1}^{2}}= \dfrac{\partial C}{\partial out_{1}^{3}} \dfrac{\partial out_{1}^{2}}{\partial in_{1}^{2}}= \dfrac{\partial C}{\partial in_{1}^{3}} \dfrac{\partial in_{1}^{3}}{\partial out_{1}^{2}} \dfrac{\partial out_{1}^{2}}{\partial in_{1}^{2}} + \dfrac{\partial C}{\partial in_{2}^{3}} \dfrac{\partial in_{2}^{3}}{\partial out_{1}^{2}} \dfrac{\partial out_{1}^{2}}{\partial in_{1}^{2}} \\ 其中\dfrac{\partial C}{\partial in_{1}^{3}}和\dfrac{\partial C}{\partial in_{2}^{3}}已知$