lecture4,backpropagation and nerual network

最新推荐文章于 2022-04-03 18:33:33 发布

陈卓为

最新推荐文章于 2022-04-03 18:33:33 发布

阅读量160

点赞数

分类专栏： cs231n

本文链接：https://blog.csdn.net/baidu_33939056/article/details/78160635

版权

cs231n 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1，computational graphs,一系列简单的计算过程组成的一张图，易于求导(理论指导为链式法则)

a,. feedward

b,backward:前一个输入当作未知数求导，因为前一个输入包含着与未知数w的关系。即 $\frac{dy}{dw} = \frac{dy}{df(x)} .\frac{df(x)} {dx}$ ,f(x)视为前一个输入。
所以

1.37下面应该为 $-\frac{1}{1.37^2} = -0.53$
将1.37视为output，对于0.37的倒数为1，所以0.37下面为-0.53*1 = -0.53
-1.00下面：-0.53*e-1 = -0.20
1.00下面：-0.2*-1 = 0.2
4.00，-3.00 下面 0.2.（加号就直接分配梯度）对w2的梯度为0.2
-2.00，6.00下面为0.2
w0的梯度为0.2*（-1.00）= -0.2
w1的梯度为0.2*（-2.00 ）= -0.4

全连神经网络的bp过程：
- 数学方法：

以上图只有一个隐层的神经网络为例：得到y前，输入的softmax函数的变量用t表示。z经过activition function 后的输出用s表示。
未知数为权值矩阵

Wdm[d+1,m],Wmk[m+1,k] $W_{dm}[d+1,m],W_{mk}[m+1,k]$ ,

l o s s = - \sum i = 1 k t i l n y i, y i = e t i \sum k a = 1 e t a

$loss =- \sum_{i=1}^kt_ilny_i,\quad y_i = \frac{e^{t_i}}{\sum_{a=1}^{k}e^{t_a}}$
所以有

d l o s s d y i = t i y i (1)

$\frac{dloss}{dy_i} = \frac{t_i}{y_i} \quad (1)$

d y i d t i = y i (1 - y i) (2), d y j d t i = - y i y j (3)

$\frac{dy_i}{dt_i} = y_i(1-y_i)\quad(2), \quad\quad\frac{dy_j}{dt_i} = -y_iy_j \quad(3)$ 由(1)(2)(3)式得

d l o s s d t i = d l o s s d y i . d y i d t i + \sum j \neq i d l o s s d y j . d y i d t i = y i - t i

$\frac{dloss}{dti} =\frac{dloss}{dy_i}. \frac{dy_i}{dt_i} +\sum_{j\not=i}\frac{dloss}{dy_j} .\frac{dy_i}{dt_i} = y_i-t_i$
2，对max gate的求导：

z = m a x (x, y) | x = 2, y = 0

$z = max(x,y)|x=2,y=0$ 此时

z $z$ 对

x $x$ 的导为2，对

y $y$ 的导为0.

3，向量对矩阵或向量求导

A x = y

$Ax=y$ 所以有

y1=a11x1+a12x2+...+a1nxn,...,yn=an1x1+an2x2+...+annxn $y_1 = a_{11}x_1+a_{12}x_2+...+a_{1n}x_n ,...,y_n=a_{n1}x_1+a_{n2}x_2+...+a_{nn}x_n$

观察可知： $\frac{dy_i}{da_{ij} }= x_j,$ $\frac{dy_k}{da_{ij} }= 0(k\neq i)$ ，所以 ${(\frac{dy}{dA} )}_{ij}= x_j$ 。同理因为 $\frac{dy_i}{dx_j }= a_{ij}$ ，所以 $(\frac{dy}{dx})_{i} = \sum_{k=1}^na_{ki}$ 。

陈卓为

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lecture4,backpropagation and nerual network

1，computational graphs,一系列简单的计算过程组成的一张图，易于求导(理论指导为链式法则)a,. feedward b,backward:前一个输入当作未知数求导，因为前一个输入包含着与未知数w的关系。即dydw=dydf(x).df(x)dx\frac{dy}{dw} = \frac{dy}{df(x)} .\frac{df(x)} {dx} ,f(x)视为前一个输入。
复制链接

扫一扫