Darknet 正向预测与反向传播

最新推荐文章于 2023-06-22 21:23:55 发布

佐理慧

最新推荐文章于 2023-06-22 21:23:55 发布

阅读量1k

点赞数 3

分类专栏：数学和机器学习文章标签： darkent

本文链接：https://blog.csdn.net/ZLH_HHHH/article/details/90174293

版权

数学和机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Darknet 正向预测与反向传播

这篇文章是没有配图的，很多事情，配图反而说不清楚。
关于正向与反向传播，我仅仅类比梯度下降一个做计算，并结合源码。但这样做的意义和效果不做分析。能力有限。更不知道网络每一层到底干了什么。玄学

$\sum_{k=1}^n\frac{\partial f(x)}{\partial x_k}cos \beta_k$
其中：
$\sum_{k=1}^ncos^2\beta_k=1$
则：
$\sum_{k=1}^n\frac{\partial f(x)}{\partial x_i}cos \beta_i\leq \Big(\sum_{k=1}^{n}\Big(\frac{\partial f(x)}{\partial x_i}\Big)^2\Big)\Big(\sum_{k=1}^{n}cos^2\beta_k\Big)$
梯度下降很简单，根据施瓦茨不等式和全微分知识，我门可以知道，对于连续函数，梯度方向是其曾长最快的方向，这里最快有点瞬时的味道，就是说只仅限于当前点，那么反向是其下降最快的方向。而沿着与梯度正交的方向运动，则相当于沿着等势面运动。此时函数值不变。
沿着梯度反方向搜索，可以保证函数值下降，直到梯度消失，当梯度消失时，算法结束在一个极小值点。有人说不存在最优结果，对于训练集来说。这样理解是不对的。其实只能说有时候不存在解析解，最优解还是存在的，因为 $l o s s$ 函数是有下界的。

全联接层其实可以看作是特殊的卷积层。你也可以叫他不全联接。我觉得这个名字不错。

全联接层

全联接层的前向

(如果不知道什么是全联接可以百度，介绍还是比较多的)
令 $c_t$ 为 $t$ 层神经元个数,全联接运算矩阵表示：
$\left[\begin{matrix} w_t(0,0)&w_t(0,1)&\dots&w_t(0,c_{t-1})\\ w_t(1,0)&w_t(1,1)&\dots&w_t(1,c_{t-1})\\ \vdots&\vdots&\ddots &\vdots\\ w_t(c_t,0)&w_t(c_t,1)&\dots&w_t(c_t,c_{t-1}) \end{matrix}\right]\left[\begin{matrix}y_{t-1}(0)\\ y_{t-1}(1)\\ \vdots\\ y_{t-1}(c_{t-1}) \end{matrix}\right]=v_t$
这里， $y_{t-1}$ 是上一层输出， $w_t$ 表示各个突触权重。 $v_t$ 就是还未激活的信号(局部诱导域)。

记： $\varphi_t(v_t)=\left[\begin{matrix}\varphi_t(v_{t}(0))\\ \varphi_t(v_{t}(1))\\ \vdots\\ \varphi_t(v_{t}(c_t)) \end{matrix}\right]$
其中 $\varphi_t$ 表示第 $t$ 层的激活函数。
简化矩阵表示为：
$v_t=w_ty_{t-1}\\ y_t=\varphi_t(v_t)$

这部分操作于代码是对应的。

void forward_connected_layer(connected_layer l, network_state state)
{
    int i;
    fill_cpu(l.outputs*l.batch, 0, l.output, 1);
    int m = l.batch;
    int k = l.inputs;
    int n = l.outputs;
    float *a = state.input;
    float *b = l.weights;
    float *c = l.output;
    gemm(0, 1, m, n, k, 1, a, k, b, k, 1, c, n);
    activate_array(l.output, l.outputs*l.batch, l.activation);
}

上面代码删掉了 $batch\ normalize$ 部分的代码。这部分代码可以先不用看。
其中， $g e m m$ 函数负责矩阵乘法。 $b a t c h$ 是训练用的参数，可以自行百度。在预测时，这个数值被强行置为 $1$ .
$g e m m$ 的前两个参数表示矩阵是否进行转置。 $m$ 表述数据个数。 $n, k$ 为维度答案保存在 $c$ 中，也就是 $l . o u t p u t$ .
对应关系：
$:v_t \\ s : y_{t-1}\\ activate\_array():\varphi(v_t)$

全联接层的反向传播

这里以 $b a t c h = 1$ 来考虑定义每一层的代价函数：
$J_t=\frac{1}{2}\sum_{k=0}^{c_t}(d_t(k)-y_t(k))^2=\frac{1}{2}[e_t,e_t]\\ e_t(k)=d_t(k)-y_t(k)$
其中， $d_t(k)$ 是我门期望的第 $t$ 层的输出。对于最后一层输出层来说，这个期望就是我门的标注数据。
当 $t$ 为输出层，也就是说，我门可以直接获得期望输出和实输出的误差 $e_t$
那么可以很方便的计算最外层的权重梯度 $\nabla J_t$ 。
$\frac{\partial J_t}{\partial w_t(a,b)}=\sum_{k=0}^{c_t}e_t(k)\frac{\partial e_t(k)}{\partial w_t(a,b)}=\sum_{k=0}^{c_t}e_t(k)\frac{\partial e_t(k)}{\partial v_t(k)}\frac{\partial v_t(k)}{\partial w_t(a,b)}\\ =-e_t(a)\varphi'_t(v_t(a))\frac{\partial \sum_{i}w_{t}(a,i)y_{t-1}(i)}{\partial w_t(a,b)}\\= -e_t(a)\varphi'_t(v_t(a))y_{t-1}(b)$
但这毕竟是外层神经元，对于内层，虽然假设了每一层的期望输出，但内层的期望输出是不知道的，这也是现阶段对网络了解过少所限制的。
此时算法是使用最外层的误差作为内层误差的。
接着上一部分计算，记： $g_t(a)=e_t(a)\varphi'_t(v_t(a))$
则： $\frac{\partial J_t}{\partial w_t(a,b)}=-g_t(a)y_{t-1}(b)$
那么考虑计算：
$\frac{\partial J_{t}}{\partial w_{t-1}(a,b)}=\sum_{k=0}^{c_t}e_t(k)\frac{\partial e_t(k)}{\partial v_t(k)}\frac{\partial v_t(k)}{\partial w_{t -1}(a,b)}\\ =\sum_{k=0}^{c_t}-g_t(k)\frac{\partial \sum_iw_t(k,i)y_{t-1}(i)}{\partial w_{t-1}(a,b)}\\ =\sum_{k=0}^{c_t}-g_t(k)\sum_{i=0}^{c_{t-1}}\frac{\partial w_t(k,i)y_{t-1}(i)}{\partial y_{t-1}(i)}\frac{\partial y_{t-1}(i)}{\partial w_{t-1}(a,b)}\\ = \sum_{k=0}^{c_t}-g_t(k)\sum_{i=0}^{c_{t-1}}w_{t}(k,i)\varphi_{t-1}(v_{t-1}(i))\frac{\partial \sum_jw_{t-1}(i,j)y_{t-2}(j)}{\partial w_{t-1}(a,b)}\\ =\sum_{k=0}^{c_t}-g_{t}(k)w_t(k,a)\varphi_{t-1}(v_{t-1}(a))y_{t-2}(b)\\=y_{t-2}(b)\varphi'_{t-1}(v_{t-1}(a))\sum_{k=0}^{c_t}-g_t(k)w_t(k,a)$

进而：
$g_{t-1}(a)=\varphi'_{t-1}(v_{t-1}(a))\sum_{k=0}^{c_t}g_t(k)w_t(k,a)\\ \frac{\partial J_t}{\partial w_{t-1}(a,b)}=-g_{t-1}(a)y_{t-2}(b)$
这种关系并非只存在 $t$ 为输出层时的 $t - 1$ 层，而是一直在传递。
考虑第 $l$ 层全联接以输出层 $t$ 的损失函数为目标函数进行梯度计算：
$\frac{\partial J_t}{\partial w_{l}(a,b)}=\frac{\partial J_t}{\partial y_{l}(a)}\frac{\partial y_l(a)}{\partial w_{l}(a,b)}\\=\frac{\partial J_t}{\partial y_{l}(a)}\varphi_l'(v_l(a))y_{l-1}(b)$
由于误差的相互独立，回顾前向传播,可以有（非常不好理解）： $\frac{\partial J_t}{\partial y_l(a)} = \sum_{k=0}^{c_{l+1}}\frac{\partial J_t}{\partial y_{l+1}(k)}\frac{\partial y_{l+1}(k)}{\partial y_l(a)}\\=\sum_{k=0}^{c_{l+1}}\frac{\partial J_t}{\partial y_{l+1}(k)}\frac{ \partial y_{l+1}(k)}{\partial v_{l+1}(k)}w_{l+1}(k,a)$
其中：
$\frac{\partial J_t}{\partial w_{l}(k,a)}=\frac{\partial J_t}{\partial y_l(k)}\frac{\partial y_{l}(k)}{\partial v_l(k)}\frac{\partial v_l(k)}{\partial w_l(k,a)}\\ =\frac{\partial J_t}{\partial y_l(k)}\frac{\partial y_{l}(k)}{\partial v_l(k)}y(a)$
此时相当于重新定义了 $g$ ，可知：
$\frac{\partial J_t}{\partial w_l(k,a)}=-g(k)y(a)$
综上,上述证明中，假设 $t$ 作为了输出层，下面的总结以 $n$ 作为输出层。：
$\frac{\partial J_n}{\partial w_t(a,b)}=-g_t(a)y_{t-1}(b)\\ g_{t}(a)=\varphi'_{t}(v_{t}(a))\sum_{k=0}^{c_{t+1}}g_{t+1}(k)w_{t+1}(k,a)\\$
注意这里 $g (t)$ 不是误差。它隐士的包含了误差传递。

反向传播的矩阵形式

$\frac{\partial J_n}{\partial w_t(a,b)}=-g_t(a)y_{t-1}(b)\\ g_{t}(a)=\varphi'_{t}(v_{t}(a))\sum_{k=0}^{c_{t+1}}g_{t+1}(k)w_{t+1}(k,a)\\$
根据这组关系,令：
$g_t = \left[\begin{matrix}g_{t}(0)\\g_{t}(1)\\ \vdots\\g_{t}(c_t)\end{matrix}\right]$
令所有向量都为列向量。
则：
$\frac{\partial J_n}{\partial w_t}=-g_ty_{t-1}^T\\ \ \\ g_t=ding(\varphi'_t(v_t))g_{t+1}^Tw_{t+1} \\=\varphi'_t(v_t)\bigodot g_{t+1}^Tw_{t+1}$
$\bigodot$ 这个运算符表示矩阵逐元素相乘得到的新矩阵： $c_{i,j}=a_{i,j}b_{i,j}$

卷积层(非全联接层)

void forward_convolutional_layer(convolutional_layer l, network_state state)
{
    int out_h = convolutional_out_height(l);
    int out_w = convolutional_out_width(l);
    int i;
    fill_cpu(l.outputs*l.batch, 0, l.output, 1);
    int m = l.n;
    int k = l.size*l.size*l.c;
    int n = out_h*out_w;
    float *a = l.weights;
    float *b = state.workspace;
    float *c = l.output;
    static int u = 0;
    u++;
    for(i = 0; i < l.batch; ++i){
        im2col_cpu_custom(state.input, l.c, l.h, l.w, l.size, l.stride, l.pad, b);
        gemm(0, 0, m, n, k, 1, a, k, b, n, 1, c, n);
        c += n*m;
        state.input += l.c*l.h*l.w;
    }
    add_bias(l.output, l.biases, l.batch, l.n, out_h*out_w);
    activate_array_cpu_custom(l.output, m*n*l.batch, l.activation);
}

基本操作： $im2col\_cpu\_custom$
这个操作对上一层的输入进行处理,得到形如 $[(size)^2l.c] \times[out\_h\times out\_w]$ 的矩阵,即为当前层输入 $y$ 。
当前层权重 $w$ 为 $filters \times (size)^2l.c$
这里， $f i l t e r s$ 代表下一层通道数，你也可以理解为神经元个数或者卷积核个数。
$s i z e$ 表示卷积核的长度(大小)。
这样很好理解，卷积操变成矩阵乘法。 $w\times y$ 得到 $filters\times out\_h\times out\_w$ 的输出。
考虑计算当卷积层作为输出层时，其最外层权重梯度：
$\frac{\partial J_n}{\partial w_n(a,b)}=\frac{1}{2}\sum_{k}\sum_{m}\frac{\partial e^2_n(k,m)}{\partial w_n(a,b)}\\ =\sum_{k}\sum_{m}e_n(k,m)\frac{\partial e_n(k,m)}{\partial v_n(k,m)}\frac{\partial v_n(k,m)}{\partial w_n(a,b)} \\=\sum_{k}\sum_{m}-e_n(k,m)\varphi'_n(v_n(k,m))\frac{\partial \sum_{i}w_n(k,i)y_{n-1}(i,m)}{\partial w_n(a,b)} \\=\sum_{m}-e_n(a,m)\varphi'_n(v_n(a,m))y_{n-1}(b,m)$

对于 $n - 1$ 层,依然以最外层作为损失作为目标函数：
$\frac{\partial J_n}{\partial w_{n-1}(a,b)}=\frac{1}{2}\sum_{k}\sum_{m}\frac{\partial e^2_n(k,m)}{\partial w_{n-1}(a,b)}\\ =\sum_{k}\sum_{m}-e_n(k,m)\frac{\partial e_n(k,m)}{\partial v_{n}(k,m)}\frac{\partial v_n(k,m)}{\partial w_{n-1}(a,b)}\\ =\sum_{k}\sum_{m}-e_n(k,m)\varphi'_n(v_n(k,m))\frac{\partial v_n(k,m)}{\partial w_{n-1}(a,b)}\\ =\sum_{k}\sum_{m}-e_n(k,m)\varphi'_n(v_n(k,m))\frac{\partial \sum_iw_n(k,i)y_{n-1}(i,m)}{\partial w_{n-1}(a,b)}\\ =\sum_{k}\sum_{m}-e_n(k,m)\varphi'_n(v_n(k,m))\sum_i\frac{\partial w_n(k,i)y_{n-1}(i,m)}{\partial v_{n-1}(i,m)}\frac{\partial v_{n-1}(i,m)}{\partial w_{n-1}(a,b)}\\ =\sum_{k}\sum_{m}-e_n(k,m)\varphi'_n(v_n(k,m))\sum_iw_n(k,i)\varphi'_{n-1}(v_{n-1}(i,m))\frac{\partial \sum_{j}w_{n-1}(i,j)y_{n-2}(j,m)}{\partial w_{n-1}(a,b)}\\ =\sum_{k}\sum_{m}-e_n(k,m)\varphi'_n(v_n(k,m))w_n(k,a)\varphi'_{n-1}(v_{n-1}(a,m))y_{n-2}(b,m)$
根据上述计算，令：
$g_n(a,m)=e_n(a,m)\varphi'_n(v_n(a,m))$
则：
$\frac{\partial J_n}{\partial w_n(a,b)}=\sum_{m}-g_n(a,m)y_{n-1}(b,m)$
$\frac{\partial J_n}{\partial w_{n-1}(a,b)}=\sum_{k}\sum_{m}-g_n(k,m)w_n(k,a)\varphi'_{n-1}(v_{n-1}(a,m))y_{n-2}(b,m)\\ =\sum_{m}\Big(\sum_{k}-g_n(k,m)w_n(k,a)\Big)\varphi'_{n-1}(v_{n-1}(a,m))y_{n-2}(b,m)$
这里，我们令：
$g_{n-1}(a,m)=\varphi'_{n-1}(v_{n-1}(a,m))\sum_{k}g_n(k,m)w_{n}(k,a)$
那么：
$\frac{\partial J_n}{\partial w_n(a,b)}=\sum_{m}-g_{n-1}(a,m)y_{n-2}(b,m)$
其实 $g$ 的这种传递性依然可以保持。重新定义 $g$
$\frac{\partial J_n}{\partial w_{t}(a,b)}=\sum_{k}\sum_{m}\frac{\partial J_n}{\partial y_{t}(k,m)}\frac{\partial y_t(k,m)}{\partial w_{t}(a,b)}\\ =\sum_{k}\sum_{m}\frac{\partial J_n}{\partial y_{t}(k,m)}\frac{\partial y_t(k,m)}{\partial v_{t}(k,m)}\frac{\partial v_t(k,m)}{\partial w_t(a,b)}\\ =\sum_{m}\frac{\partial J_n}{\partial y_{t}(a,m)}\frac{\partial y_t(a,m)}{\partial v_{t}(a,m)}y_{t-1}(b,m)$
这里，令： $g_t(a,m)=\frac{\partial J_n}{\partial y_{t}(a,m)}\frac{\partial y_t(a,m)}{\partial v_{t}(a,m)}$
显然， $t = n, n - 1$ 时，是成立的。
归纳有：
$\frac{\partial J_n}{\partial w_{t}(a,b)}=\sum_{m}\frac{\partial J_n}{\partial y_{t}(a,m)}\frac{\partial y_t(a,m)}{\partial v_{t}(a,m)}y_{t-1}(b,m)$
对于（非常不好理解）：
$\frac{\partial J_n}{\partial y_{t}(a,m)}\frac{\partial y_t(a,m)}{\partial v_{t}(a,m)}=\frac{\partial J_n}{\partial y_{t}(a,m)}\varphi_{t}'(v_{t}(a,m))\\ =\varphi_{t}'(v_{t}(a,m)) \sum_{i}\frac{\partial J_n}{\partial y_{t+1}(i,m)}\frac{\partial y_{t+1}(i,m)}{\partial v_{t+1}(i,m)}\frac{\partial v_{t+1}(i,m)}{\partial y_t(a,m)}\\ =\varphi_{t}'(v_{t}(a,m)) \sum_{i}\frac{\partial J_n}{\partial y_{t+1}(i,m)}\frac{\partial y_{t+1}(i,m)}{\partial v_{t+1}(i,m)}w_{t+1}(i,a)$
故： $g_t(a,m)=\varphi'_t(v_t(a,m))\sum_{k}g_{t+1}(k,m)w_{t+1}(k,a)$
卷积反向传播也可以用矩阵表示：
$g_t=\varphi'_t(v_t)\bigodot g_{t+1}^Tw_{t+1}\\ \frac{\partial J_n}{\partial w_t}=-g_ty_{t-1}^T$

卷积与全连接更新方式一样

对于部分不好理解的地方，做一个解释：
对于上文中，两处不好理解的地方，其实你可以这样理解为连续函数 $h(x_1,x_2,\dots,x_n)$

令： $f(t)=h(t,t,\dots,t)$ 则：
$\frac{df(t)}{dt}=\sum_{k=1}^n\frac{\partial h}{\partial x_k}\Big|_{x_k=t}$
对于 $t$ 层第 $k$ 个神经元输出 $y_t(a)$ 对输出层 $n$ 的损失函数的影响是多维度的。只不过每个维度的输入变量是一个.显然，这种影响又是可微的。
$\frac{\partial J_n}{\partial y_t(a)}=\sum_{k=0}^{c_{t+1}}\frac{\partial J_n}{\partial y_{t+1}(k)}\frac{\partial y_{t+1}(k)}{\partial y_t(a)}$

佐理慧

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Darknet 正向预测与反向传播

关于这两个算法，我仅仅类比梯度下降一个做计算，并结合源码。但这样做的意义和效果不做分析。能力有限。我也有很多的不理解。梯度下降很简单，根据施瓦茨不等式，我门可以知道，对于连续函数，梯度方向是其曾长最快的方向，这方向有点瞬时的味道，就是说只仅限于当前点，那么反向是其下降最快的方向。而沿着与梯度正交的方向运动，则相当于沿着等势面运动。此时函数值不变。那么沿着梯度反方向搜索，可以保证函数值下降，直到...
复制链接

扫一扫

专栏目录