深度学习常见数学公式解释

最新推荐文章于 2024-08-28 19:42:26 发布

BrotherHappy

最新推荐文章于 2024-08-28 19:42:26 发布

阅读量1.1k

点赞数

分类专栏：数学知识学习文章标签：卷积深度学习人工智能计算机视觉 python

本文链接：https://blog.csdn.net/q1540108857/article/details/115559438

版权

数学知识学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

深度学习常见公式解释

- 卷积和反卷积的介绍
- - - 1. 对于卷积，我们一般有如下的参数：
    - 2. 对于反卷积
  - EMA(Exponential move average)指数滑动平均

卷积和反卷积的介绍

1. 对于卷积，我们一般有如下的参数：

input size $W_{in}*H_{in}$
kernel size $k e r n e l * k e r n e l$
stride s $s t r i d e, s t r i d e$
padding size $p a d, p a d$
in channels

对一个卷积操作可以表示为如下的图，实际过程中一般不只是一个通道,

卷积示意图

可以看得出padding后实际的长和宽为：
$W_{middle}=W_{in}+2*pad\\ H_{middle}=H_{in}+2*pad$
从而可以计算最后的长和宽为:
$W_{out}=\frac {W_{middle}-k}{stride}+1=\frac {W_{in}+2*pad-k}{stride}+1\\ H_{out}=\frac {H_{middle}-k}{stride}+1=\frac {H_{in}+2*pad-k}{stride}+1$

2. 对于反卷积

对上图的公式做变换可知：
$W_{in}=(W_{out}-1)*stride +k-2*pad\\ H_{in}=(H_{out}-1)*stride +k-2*pad$
反卷积示意图

反卷积可以说是对卷积做一个逆变换了，那么其参数和卷积类似，但是前后每个通道的变换如下:
$W_{out}=(W_{in}-1)*stride +k-2*pad\\ H_{out}=(H_{in}-1)*stride +k-2*pad$

EMA(Exponential move average)指数滑动平均

这是一种给与近期数据权重更高的平均方法
$EMA:v_t=\alpha*v_{t-1}+(1-\alpha)*\theta _t\\ 其中v_t表示前t条的平均值，v_0=0,\alpha是加权权重值，一般设定为0.9\text{~}0.999$
一般的普通的过去n时刻的平均是: $v_t=\cfrac {(n-1)*v_{t-1}+\theta_t} n$ ,如果把 $\alpha$ 设定为 $\cfrac {n-1} n$ ,那么可以看得出来两者形式上是等同的。

下面我们看一下EMA究竟做了什么东西:
$令n时刻的模型权重为v_n,梯度为g_n,参数为\theta_n,那么可以得到:公式➀ \text{}\\ \begin{aligned} \theta_n &=\theta_{n-1}-g_{n-1}\\ &=\theta_{n-2}-g_{n-2}-g_{n-2}\\ &=\theta_{n-3}-g_{n-3}-g_{n-2}-g_{n-1}\\ &=\theta_1-\sum_{i=1}^{n-1}g_i\\ \end{aligned}\\ n时刻的EMA的影子权重为v_n,可以得到：公式➁\\ \begin{aligned} v_n&=\alpha v_{n-1}+(1-\alpha)\theta_n\\ &=\alpha(\alpha v_{n-2}+(1-a)\theta_{n-1})+(1-\alpha)\theta_n\\ &=\alpha^nv_0+(1-a)(\theta_n+\alpha\theta_{n-1}+\alpha^2\theta_{n-2}+\dots+\alpha^{n-1}\theta_1) \end{aligned}\\ 接着我们讲公式1带入公式2，可以得到如下:\\ \begin{aligned} v_n&=&\alpha^nv_0+(1-a)(\theta_1-\sum_{i=1}^{n-1}+\alpha(\theta_1-\sum_{i=1}^{n-2}g_i)+...+\alpha^{n-2}(\theta-\sum_{i=1}^1+\alpha^{n-1}\theta_1)\\ &=&\theta_1-\sum_{i=1}^{n-1}(1-\alpha^{n-i})\\ \end{aligned} 可以看到如下的两个式的对比：\\ \begin{cases} \theta_n = \theta_1-\sum_{i=1}^{n-1}g_i \quad &结论1\\ v_n=\theta_1-\sum_{i=1}^{n-1}(1-\alpha^{n-i})g_i&结论2\\ 由上面的两个式子可以很明显的看出来EMA在第i步的下降的补偿增加了权重系数\\相当于做了一个learning\,rate\,dacay，从而能够更好的控制达到全局收敛 \end{cases}$

BrotherHappy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习常见数学公式解释

深度学习常见公式解释卷积和反卷积的介绍1. 对于卷积，我们一般有如下的参数：2. 对于反卷积EMA(Exponential move average)指数滑动平均卷积和反卷积的介绍1. 对于卷积，我们一般有如下的参数：input size Win∗HinW_{in}*H_{in}Win∗Hinkernel size kernel∗kernelkernel*kernelkernel∗kernelstride s stride,stridestride,stridestride,st
复制链接

扫一扫

专栏目录