深度学习（更新中~）

最新推荐文章于 2024-08-05 17:47:00 发布

QPQ-3

最新推荐文章于 2024-08-05 17:47:00 发布

阅读量115

点赞数

文章标签：深度学习 lstm rnn cnn

本文链接：https://blog.csdn.net/qpq_learning/article/details/128825984

版权

前馈神经网络MLP

基础架构

前馈神经网络基础架构如下图，相邻层间每个神经元都彼此相连，且分为输入层、隐藏层、输出层三部分，用以拟合任意函数。

其中隐藏层层数 $l$ 为神经网络的深度，拟合函数 $f:\R^{n_x}\to\R^{n_y}$ ，输入、输出层宽度为 $n_x、n_y$ ，每层隐藏层的宽度为 $n_i$ 、状态向量为 $\boldsymbol{h}_i$ ，则每层的表达式为：
$\boldsymbol{h}_i=g_i(\boldsymbol{W}_i\boldsymbol{h}_{i-1}+\boldsymbol{b}_i)$
其由一个非线性激活函数 $g_i$ 与一个 $\R^{n_{i-1}}\to\R^{n_i}$ 仿射变换组成。
在这里插入图片描述

激活函数

整流线性函数ReLU：
$g(x)=\max\{0,x\}$
目前最常用的激活函数，逐元素运算，缺陷是不能学习到 $x < 0$ 时梯度为零的样本，初始化时常将偏置 $\boldsymbol{b}_i$ 设为一个小的正值来保证多数神经元处于激活状态。

其有几个主要变体（主要是为了改善 $x < 0$ 时梯度为零的问题）：

$x < 0$ 时设置一个非零梯度 $\alpha$ ， $g(x)=\max\{0,x\}+\alpha\min\{0,x\}$ ： $\alpha=-1$ 时为绝对值整流； $\alpha$ 固定为一个小的超参数时为渗透学习单元； $\alpha$ 为要学习的参数时为参数化整流PReLU；
maxout单元：将输入均分为 $n$ 个 $k$ 大小的组，每个组使用最大值函数， $\R^{kn}\to\R^n$ 的映射： $g(\boldsymbol{x})_i=\mathop {\max }\limits_{(i-1)k+1\le j\le ik}x_j$ ， $k$ 称为块数；maxout相当于整流函数的一般化，可以学习激活函数本身，当使用足够大的 $k$ 时maxout函数可以以任意精度近似任意凸函数。但也由于参数较多比整流单元需要更多的正则化；

logistic函数：

logistic sigmoid函数 $\sigma(x)$ 与双曲正切函数 $\tanh(x)$ ：
$\sigma(x)=\cfrac{1}{1+e^{-x}} \\ \tanh(x)=\cfrac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
这两个函数由于广泛饱和性不适于前馈与卷积神经网络的激活函数，若必须要使用tanh函数往往比sigmoid函数表现更好；

由于对数似然代价函数可以在抵消指数的饱和性，这两个函数常用于输出层；循环神经网络、概率模型与自编码器有时映射到0~1的额外要求也会使用这两个函数。

无激活函数：

无激活函数直接线性输出往往用于降秩以减少参数；

如一个两层网络 $\R^n\to \R^q\to \R^p$ ，第一层为无激活函数的线性层 $\boldsymbol{h}_1=\boldsymbol{U}\boldsymbol{x}$ ，第二层为有激活函数的线性层 $\boldsymbol{h}_2=g(\boldsymbol{V}\boldsymbol{h}_1+\boldsymbol{b})$ ；跳过中间直接映射 $\R^n\to \R^p$ ： $\boldsymbol{h}_2=g(\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b})$ ；则前者参数数为 $(n + p) q + p$ ，后者参数数为 $n p + p$ ，相当于做了一个 $rank(\boldsymbol{W})=q$ 的先验假设，当 $q$ 很小时以降秩为代价减少了参数。

softplus函数：
$\zeta(x)=\ln(1+e^x)$
整流函数的平滑版本，但经验表明整流函数优于该函数。

架构设计

万能近似定理：MLP若具有线性输出层与至少有一层具有“挤压”性质激活函数的隐藏层，则只要隐藏层宽度足够大，便可以以任意精度近似任意有限维的Borel可测函数，导数也可以任意好的近似。

一般来说更宽的宽度能使网络近似地更好，更深的网络能使网络泛化地更好。

若MLP深度为 $l$ 、输入维数为 $d$ 、隐藏层宽度均为 $n$ 、激活函数为整流，则MLP能表示的线性区域数量为 $O\left(\binom{n}{d}^{d(l-1)}n^d\right)$ （ $\binom{n}{d}=C_n^d$ ）；若MLP采用的是块数 $k$ 的maxout激活函数，则MLP能表示的线性区域数量为 $O(k^{(l-1)+d})$ ；

反向传播算法

前向传播通过计算图由输入到输出最后计算各节点状态与代价函数，计算图上每个节点代表变量每条边代表操作函数；反向传播通过计算图由代价函数到各参数节点最后计算各参数的代价函数导数；

设代价函数为 $J$ ，要计算导数的参数为 $u_k$ ， $\text{path}(u_{\pi_1},\cdots,u_{\pi_t})\in Pa(J,u_k)$ 为计算图上 $u_k$ 到 $J$ 的任一条路径，其中 $u_{\pi_1}=u_k,u_{\pi_t}=J$ ，则有：
$\cfrac{\partial J}{\partial u_k}=\sum_{\text{path}(u_{\pi_1},\cdots,u_{\pi_t})\in Pa(J,u_k)} \prod\limits_{i=2}^{t} {\cfrac{\partial u_{\pi_i}}{\partial u_{\pi_{i-1}}}}$
若直接计算该表达式，由于不同的路径有重复的表达式，会造成很大存储与计算成本，特别是当节点增多时路径数会随节点指数倍增长；而反向传播算法避免了重复计算相同表达式，对于 $n$ 个节点的计算图计算与存储成本为 $O(n^2)$ ，而神经网络多为链式结构成本往往只有 $O (n)$ ，其原理基于链式法则：
$\nabla_{\boldsymbol{x}}\boldsymbol{z}=\nabla_{\boldsymbol{x}}\boldsymbol{y}\nabla_{\boldsymbol{y}}\boldsymbol{z}$
标量链式计算图：

若计算图节点都为标量，且以特殊的方式排列使得从父节点 $u_1$ 开始沿序号上升的顺序到子节点 $u_n$ ，记 $u_i$ 的子节点集合为 $H_i$ 即若 $u_j\in H_i$ 则 $j > i$ ；

从节点 $u_l(1\le l\le n)$ 开始，计算 $\cfrac{\partial u_l}{\partial u_i}(1\le i\le l)$ 的BP算法为：

输入：计算图结构，每个变量 $u_i(1\le n)$ 的取值状态，每个子节点关于父节点的偏导解析式
过程：
$\cfrac{\partial u_l}{\partial u_l}=1$
for i=l-1:1
$\cfrac{\partial u_l}{\partial u_i}=\sum_{j\in H_i}\cfrac{\partial u_l}{\partial u_j}\cfrac{\partial u_j}{\partial u_i}$