深度前馈网络

最新推荐文章于 2024-10-17 09:29:38 发布

blue-bridge

最新推荐文章于 2024-10-17 09:29:38 发布

阅读量72

点赞数 1

文章标签：机器学习线性代数概率论

本文链接：https://blog.csdn.net/chentao2001/article/details/120471613

版权

网络结构

在这里插入图片描述

$\mathbf{a}^{(l)}_{n^{(l)}\times 1}=(\mathbf{W}^{(l)}_{n^{(l-1)}\times n^{(l)}})^T\mathbf{z}^{(l-1)}_{n^{(l-1)}\times 1}\\ \mathbf{z}^{(l)}_{n^{(l)}\times 1}=g_l(\mathbf{a}^{(l)}_{n^{(l)}\times 1})\\ 其中，\mathbf{W}包含了权重和偏置，每一层增加一个神经元，其值为1；\mathbf{z}^{(1)}=\mathbf{x}$

目标函数

$J(\mathbf{W})=\frac{1}{2}\sum_{i=1}^{N}(f(\mathbf{x}^{(i)}),\mathbf{W}-y^{(i)})^2\\ \min_\mathbf{W}J(\mathbf{W})\\ 其中，\mathbf{W}表示所有权重，N表示样本数量$

梯度-反向传播算法（Back propagation）

$\star$ 对于所有神经单元，运算只涉及到了加法（没有神经单元自身或之间的乘积）

输出层
$对于输出层l中的某个单元j，对一个权重\mathbf{W}^{(l)}_{ij}求偏导：\\ \frac{\partial J}{\partial \mathbf{W}^{(l)}_{ij}}=\frac{\partial J}{\partial \mathbf{a}^{(l)}_j}\frac{\partial \mathbf{a}^{(l)}_j}{\partial \mathbf{W}^{(l)}_{ij}}\\ \frac{\partial \mathbf{a}^{(l)}_j}{\partial \mathbf{W}^{(l)}_{ij}}=\frac{\partial \sum_{k=0}^{H} \mathbf{W}^{(l)}_{ij} \mathbf{z}^{(l-1)}_k}{\partial \mathbf{W}^{(l)}_{ij}}=\frac{\sum_{k=0}^{H} \partial \mathbf{W}^{(l)}_{ij} \mathbf{z}^{(l-1)}_k}{\partial \mathbf{W}^{(l)}_{ij}}=\mathbf{z}^{(l-1)}_i（H+1表示权重数，即n^{(l-1)}）\\ \frac{\partial J}{\partial \mathbf{W}^{(l)}_{ij}}=\frac{\partial J}{\partial \mathbf{a}^{(l)}_j}\mathbf{z}^{(l-1)}_i\\ define \delta_j=-\frac{\partial J}{\partial \mathbf{a}^{(l)}_j}\\ \frac{\partial J}{\partial \mathbf{W}^{(l)}_{ij}}=-\delta_j\mathbf{z}^{(l-1)}_i\\ 在输出层中，若以恒等函数作为激活函数，则\\ J(\mathbf{w})=\frac{1}{2}(\mathbf{a}^{(l)}_{j} -y_j)^2\\ \frac{\partial J}{\partial \mathbf{a}^{(l)}_{j}}=\mathbf{a}^{(l)}_{j}-y_j\\ \frac{\partial J}{\partial \mathbf{W}^{(l)}_{ij}}=(y_j-\mathbf{a}^{(l)}_{j})\mathbf{z}^{(l-1)}_i\\$
隐藏层
$对于隐藏层l中的单元j，对一个权重\mathbf{W}^{(l)}_{ij}求偏导：\\ \frac{\partial J}{\partial \mathbf{W}^{(l)}_{ij}}=\frac{\partial J}{\partial \mathbf{a}^{(l)}_j}\mathbf{z}^{(l-1)}_i\\ 对于一个样本的某个输出单元：\\ J=\frac{1}{2}(f(\mathbf{a}^{(l+1)})-y)（f只涉及\mathbf{a}^{(l+1)}_k之间的加法） \\ \frac{\partial J}{\partial \mathbf{a}^{(l)}_j}=\sum_{k=0}^{n^{(l+1)}} \frac{\partial J}{\partial \mathbf{a}^{(l+1)}_k}\frac{\partial \mathbf{a}^{(l+1)}_k}{\partial \mathbf{a}^{(l)}_j}\\ =-\sum_{k=0}^{n^{(l+1)}} \delta_k\frac{\partial \mathbf{a}^{(l+1)}_k}{\partial \mathbf{a}^{(l)}_j}\\ =-\sum_{k=0}^{n^{(l+1)}} \delta_k\frac{\partial \mathbf{a}^{(l+1)}_k}{\partial \mathbf{z}^{(l)}_j}\frac{\partial \mathbf{z}^{(l)}_j}{\partial \mathbf{a}^{(l)}_j} \\ =-\frac{\partial \mathbf{z}^{(l)}_j}{\partial \mathbf{a}^{(l)}_j}\sum_{k=0}^{n^{(l+1)}} \delta_k\frac{\partial \mathbf{a}^{(l+1)}_k}{\partial \mathbf{z}^{(l)}_j} \\ =-g'(\mathbf{a}_j)\sum_{k=0}^{n^{(l+1)}} \delta_k\mathbf{W}^{(l+1)} _{jk}\\$

自动微分和计算图

计算图
1. 静态计算图：编译时构建，程序运行时不可改变–可优化，并行能力强，灵活性差–tensorflow，theano
2. 动态计算图：运行时动态构建–不容易优化，不利于并行，灵活性强–pytorch
自动微分：函数与参数之间有多条路径，可将多条路径上的导数再进行相加，得到最终的梯度
1. 前向模式
2. 反向模式–反向传播