tutorial of CNN 笔记

最新推荐文章于 2019-04-29 15:07:13 发布

lygztq

最新推荐文章于 2019-04-29 15:07:13 发布

阅读量299

点赞数

分类专栏：机器学习文章标签： cnn

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

tutorial of CNN 笔记

Vanilla BP Through Fully Connected Networks

这里只考虑二维CNN的情况

Feedforward Pass

这里使用平方误差Loss Function，对于一个c类N个sample的分类器，设 $t_{k}^{n}$ 为第n个图像在k-th维度上对应的label， $y_{k}^{n}$ 为CNN的输出层对于第n个输入的pattern在第k个维度上的输出，则error为：

E N = 1 2 \sum n = 1 N \sum k = 1 c (t n k - y n k) 2

$\begin{equation} E^N = \dfrac{1}{2}\sum_{n=1}^{N} \sum_{k=1}^{c}(t_{k}^{n}-y_{k}^{n})^2 \end{equation}$
多分类器的label大多采用one-hot code（e.g:[0,0,1,0,0]）

由于整个dataset的error只是N张输入的error的加和，这里为了简便假定input只有一张图，那么

E n = 1 2 \sum k = 1 c (t n k - y n k) 2 = 1 2 ∥ t n - y n ∥ 22

$\begin{equation} E^n = \dfrac{1}{2}\sum_{k=1}^{c}(t_{k}^{n}-y_{k}^{n})^2 = \dfrac{1}{2}\Vert \textbf{t}^n - \textbf{y}^n \Vert_{2}^{2} \end{equation}$
为了将权值W引入计算，设

ℓ $\ell$ 表示当前层号，输入层为1层，输出层为L层，定义这一层的输出为：

x ℓ = f (u ℓ), w i t h u ℓ = W ℓ x ℓ - 1 + b ℓ

$\begin{equation} \textbf{x}^{\ell} = f(\textbf{u}^{\ell}),with\quad \textbf{u}^{\ell}=\textbf{W}^{\ell}\textbf{x}^{\ell -1} + \textbf{b}^{\ell} \end{equation}$
f(.)为激活函数（sigmoid或tanh），

f(x)=atanh(bx) $f(x)=a tanh(bx)$ ，但是把数据正则化(normalizing)为期望为0方差为1的数据会改善梯度下降中改善收敛的性能，所以tanh较好一点.LeCun推荐

a=1.7159 $a=1.7159$ 并且

b=2/3 $b=2/3$ ，so that the point of maximum nonlinearity occurs at

f(±1)=±1 $f(±1) =±1$ and will thus avoid saturation during training if the desired training targets are normalized to take on the values ±1.

Backpropagation Pass

这里的error可以视为每一个神经元对bias（b）上的扰动的敏感度（大雾），公式为

\partial E \partial b = \partial E \partial u \partial u \partial b = δ

$\begin{equation} \dfrac{\partial E}{\partial b}=\dfrac{\partial E}{\partial u} \dfrac{\partial u}{\partial b}=\delta \end{equation}$

而 $\dfrac{\partial u}{\partial b}=1$ ,也就是说

\partial E \partial b = \partial E \partial u = δ

$\begin{equation} \dfrac{\partial E}{\partial b}=\dfrac{\partial E}{\partial u}=\delta \end{equation}$

那么有

δ ℓ = \partial E \partial u ℓ = \partial E \partial u ℓ + 1 \partial u ℓ + 1 \partial x ℓ \partial x ℓ \partial u ℓ

$\begin{equation} \delta^{\ell}=\dfrac{\partial E}{\partial \textbf{u}^{\ell}}=\dfrac{\partial E}{\partial \textbf{u}^{\ell +1}} \dfrac{\partial \textbf{u}^{\ell +1}}{\partial \textbf{x}^{\ell}}\dfrac{\partial \textbf{x}^{\ell}}{\partial \textbf{u}^{\ell}} \end{equation}$

\partial E \partial u ℓ + 1 \partial u ℓ + 1 \partial x ℓ \partial x ℓ \partial u ℓ = δ ℓ + 1 = (W ℓ + 1) T = f' (u ℓ)

$\begin{align} \dfrac{\partial E}{\partial \textbf{u}^{\ell +1}}&=\delta^{\ell +1} \\ \dfrac{\partial \textbf{u}^{\ell +1}}{\partial \textbf{x}^{\ell}}&=(\textbf{W}^{\ell +1})^{T} \\ \dfrac{\partial \textbf{x}^{\ell}}{\partial \textbf{u}^{\ell}}&=f^{'}(\textbf{u}^{\ell}) \end{align}$
得到反向传播的最重要的公式：

δ ℓ = (W ℓ + 1) T δ ℓ + 1 ⊙ f' (u ℓ)

$\begin{equation} \delta^{\ell}=(\textbf{W}^{\ell +1})^{T} \delta^{\ell +1}\odot f^{'}(\textbf{u}^{\ell}) \end{equation}$
对输出层，公式变为

f' (u ℓ) δ L = \partial y \partial u L = f' (u ℓ) ⊙ (y n - t n)

$\begin{align} f^{'}(\textbf{u}^{\ell})&=\dfrac{\partial \textbf{y}}{\partial \textbf{u}^{L}} \\ \delta^{L}&=f^{'}(\textbf{u}^{\ell}) \odot (\textbf{y}^{n}-\textbf{t}^{n}) \end{align}$
那么对每一个给定的神经元，更新权值W只需要知道输入和对应的delta（delta法则）

\partial E \partial W ℓ = \partial u ℓ \partial W ℓ \partial E \partial u ℓ = x ℓ - 1 (δ ℓ) T

$\begin{equation} \dfrac{\partial E}{\partial \textbf{W}^{\ell}}=\dfrac{\partial \textbf{u}^{\ell}}{\partial \textbf{W}^{\ell}} \dfrac{\partial E}{\partial \textbf{u}^{\ell}}=\textbf{x}^{\ell -1}(\delta^{\ell})^{T} \end{equation}$

△ W ℓ = - η \partial E \partial W ℓ

$\begin{equation} \triangle \textbf{W}^{\ell}=-\eta\dfrac{\partial E}{\partial \textbf{W}^{\ell}} \end{equation}$
实际应用中对每一个

Wi,j $W_{i,j}$ 都对应一个学习率

ηi,j $\eta_{i,j}$

Convolutional Neural Networks

Convolution Layers

导出convolution layers 的bp更新公式，在convolution layer，前一层的特征图和一个可以学习的kernel进行卷积并且在最后加上一个activation function，每一个convolution layer的output map可能由多个输入卷积之后叠加而成，设 $M_{j}$ 为选中的input map（a selection of input map），公式为：

x ℓ j = f (\sum i \in M j x ℓ - 1 i * k ℓ i, j + b ℓ j)

$\begin{equation} \textbf{x}_{j}^{\ell}=f(\sum_{i\in M_j}\textbf{x}_{i}^{\ell -1} \ast \textbf{k}_{i,j}^{\ell}+\textbf{b}_{j}^{\ell}) \end{equation}$
对于input map selection的设置，一般选择每两个一组或者每三个一组。

Computing the Gradients

我们假定每一个卷积层 $\ell$ 的后面都有一个降采样层（pooling？） $\ell +1$ 。和全连接的BP网络不同，在CNN中一个卷积层后面是一个降采样层，那么下一层的图像上的一个像素点在上一层中对应一个block的像素点，也就是这一像素点对应的 $\delta$ 在上一层中对应一个block的像素点，因为有降采样层的存在， $\ell$ 层中的每一个unit只对应 $\ell +1$ 层中的一个unit。为了有效率地计算 $\ell$ 层的 $\delta$ ，我们可以upsample $\ell +1$ 层的 $\delta$ 组成的map，使得这一个map和上一个卷积层的大小一致，然后和上一层的 $f^{'}(\textbf{u}_{j}^{\ell})$ 进行元素相乘。在降采样层的map定义的权值全部都等于 $\beta$ (constent)，所以我们只需要把上一步操作的结果乘上 $\beta$ 来结束 $\ell$ 层的 $\delta$ 的计算，所以对convolutional层的每一个map j，都有：

δ ℓ j = β ℓ + 1 j (f' (u ℓ j) ⊙ u p (δ ℓ + 1 j))

$\begin{equation} \delta_{j}^{\ell}=\beta_{j}^{\ell +1}(f^{'}(\textbf{u}_{j}^{\ell})\odot up(\delta_{j}^{\ell +1})) \end{equation}$
up(.)表示upsampling操作，即将每一个像素点横向和纵向地重复n次（假设降采样层是以n*n的大小降采样的），一个有效的计算这个过程的方法是使用Kronecker product

如果A是一个 m x n 的矩阵，而B是一个 p x q 的矩阵，克罗内克积则是一个 mp x nq 的矩阵

$A \otimes B = ⎛ ⎝ ⎜ ⎜ a 11 B ⋮ a m 1 B \dots ⋱ \dots a 1 n B ⋮ a m n B ⎞ ⎠ ⎟ ⎟$ $\begin{equation} A\otimes B= \begin{pmatrix} a_{11}B & \cdots & a_{1n}B \\ \vdots & \ddots & \vdots \\ a_{m1}B & \cdots & a_{mn}B \\ \end{pmatrix} \end{equation}$

那么

u p (x) \equiv x \otimes 1 n \times n

$\begin{equation} up(\textbf{x}) \equiv \textbf{x}\otimes \textbf{1}_{n\times n} \end{equation}$
那么我们很快就可以计算出bias的梯度：

\partial E \partial b j = \sum u, v (δ ℓ j) u v .

$\begin{equation} \frac{\partial E}{\partial b_{j}}=\sum_{u,v}(\delta_{j}^{\ell})_{uv}. \end{equation}$
最后，卷积核权值的梯度可以用BP得出，因为权值共享，只需要把所有涉及到给定权值的连接的梯度相加即可

\partial E \partial k ℓ i , j = \sum u, v (δ ℓ j) u v (P ℓ - 1 i) u v

$\begin{equation} \dfrac{\partial E}{\partial \textbf{k}_{i,j}^{\ell}}=\sum_{u,v}(\delta_{j}^{\ell})_{uv}(\textbf{P}_{i}^{\ell -1})_{uv} \end{equation}$

(Pℓ−1i)uv $(\textbf{P}_{i}^{\ell -1})_{uv}$ 是

xℓ−1i $\textbf{x}_{i}^{\ell -1}$ 中的一个patch，在卷积的过程中和

kℓi,j $\textbf{k}_{i,j}^{\ell}$ 进行对应元素相乘以得到在output map

xℓj $\textbf{x}_{j}^{\ell}$ 的第(u,v)个元素，

kℓi,j $\textbf{k}_{i,j}^{\ell}$ 是从input map i 到output map j过程中使用的卷积核

上式可以在MATLAB中用一行写出，我们先对delta灵敏度map进行旋转，这样就可以进行互相关计算，而不是卷积（在卷积的数学定义中，特征矩阵（卷积核）在传递给conv2时需要先翻转（flipped）一下。也就是颠倒下特征矩阵的行和列）。然后把输出反旋转回来，这样我们在前向传播进行卷积的时候，卷积核才是我们想要的方向。

\partial E \partial k ℓ i , j = r o t 180 (c o n v 2 (x ℓ - 1 i, r o t 180 (δ ℓ j),' v a l i d')) .

$\begin{equation} \dfrac{\partial E}{\partial \textbf{k}_{i,j}^{\ell}}=rot180(conv2(\textbf{x}_{i}^{\ell -1},rot180(\delta_{j}^{\ell}),'valid')). \end{equation}$

Sub-sampling Layers

降采样层提供了对input map的降采样的视角，如果有N个input map，那么就有N个output map，但是output map 要比input map小，或者

x ℓ j = f (β ℓ j d o w n (x ℓ - 1 j + b ℓ j)),

$\begin{equation} \textbf{x}_{j}^{\ell}=f(\beta_{j}^{\ell}down(x_{j}^{\ell -1} +b_{j}^{\ell})), \end{equation}$
down(.)表示降采样方程，一般采用n x n的区域计算（取最大或者取平均），所以output map 的大小要比input map的大小在两个空间维度上（x轴，y轴）小n倍，

β $\beta$ 为乘性bias，b 为加性bias

Computing the Gradients

这里的难点在于计算 $\delta$ maps，一旦我们得到了 $\delta$ maps，需要学习的变量就只有 $\beta$ 和b，我们假设降采样层被卷积层上下包围。如果紧跟着降采样层的是全连接层，那么 $\delta$ map可以直接用Vanilla BP公式算出

当我们计算section2.1.1的卷积核的梯度的时候，我们需要算出input中的哪一个patch对应output map中的给定的pixel，而在这里我们需要算出当前层的 $\delta$ map对应下一层的 $\delta$ map的pixel，因为需要使用形如 $\delta^{\ell}=(\textbf{W}^{\ell +1})^{T} \delta^{\ell +1}\odot f^{'}(\textbf{u}^{\ell})$ 的 $\delta$ 迭代公式。另外，需要乘以输入patch与输出像素之间连接的权值，这个权值实际上就是卷积核的权值（已旋转的）。

δ ℓ j = f' (u ℓ j) ⊙ c o n v 2 (δ ℓ + 1 j, r o t 180 (k ℓ + 1 j),' f u l l') .

$\begin{equation} \delta_{j}^{\ell}=f^{'}(\textbf{u}_{j}^{\ell})\odot conv2(\delta_{j}^{\ell +1},rot180(\textbf{k}_{j}^{\ell +1}),'full'). \end{equation}$
像之前一样，我们先旋转卷积核来让卷积函数进行互相关计算，这里需要使用’full convolution’来处理边界情况，在边界补0，以免input中的一个patch无法被nxn的区域铺满

这时就可以开始计算 $\beta$ 和b了，对于加性bias，同样只是把 $\delta$ map中的所有元素加起来：

\partial E \partial b j = \sum u, v (δ ℓ j) u v .

$\begin{equation} \frac{\partial E}{\partial b_{j}}=\sum_{u,v}(\delta_{j}^{\ell})_{uv}. \end{equation}$
对于乘性bias，不可避免地要涉及到原来的在feedforward过程中的当前层的down-sampled的map，所以最好把这些map先保存起来，避免重复计算，定义：

d ℓ j : = d o w n (x ℓ - 1 j)

$\begin{equation} \textbf{d}_{j}^{\ell}:=down(\textbf{x}_{j}^{\ell -1}) \end{equation}$
那么

β $\beta$ 的梯度：

\partial E \partial β j = \sum u, v (δ ℓ j ⊙ d ℓ j) u v .

$\begin{equation} \dfrac{\partial E}{\partial \beta_{j}}=\sum_{u,v}(\delta_{j}^{\ell}\odot \textbf{d}_{j}^{\ell})_{uv}. \end{equation}$

Learning Combinations of Feature Maps

一般来说，使用多个input的卷积相加得出一个output map是有好处的。在一些著作中，这样的一些input map是手动选择的，但是我们可以尝试让CNN自己学习如何选择input maps，令 $\alpha_{ij}$ 表示input map i的权重，那么output map j可以表示为：

x ℓ j = f (\sum i = 1 N i n p u t α i j (x ℓ - 1 i * k ℓ i) + b ℓ j)

$\begin{equation} \textbf{x}_{j}^{\ell}=f(\sum_{i=1}^{N_{input}}\alpha_{ij}(\textbf{x}_{i}^{\ell -1}\ast \textbf{k}_{i}^{\ell})+\textbf{b}_{j}^{\ell}) \end{equation}$
并且

\sum i α i j = 1, a n d 0 \leq α i j \leq 1.

$\begin{equation} \sum_{i}\alpha_{ij}=1,\quad and\quad0\leq \alpha_{ij} \leq 1. \end{equation}$
为了满足上式可以把

αij $\alpha_{ij}$ 设置为由一组无限制的隐含权值通过softmax得到的值

α i j = e x p ( c i j ) \sum k e x p ( c k j )

$\begin{equation} \alpha_{ij}=\dfrac{exp(c_{ij})}{\sum_{k}exp(c_{kj})} \end{equation}$
因为上式的j是固定的，为了简便，我们去掉j，只考虑一个输出的情况，那么上面的那个softmax的函数的导数为：

\partial α k \partial c i = δ k i α i - α i α k

$\begin{equation} \dfrac{\partial \alpha_{k}}{\partial c_{i}}=\delta_{ki}\alpha_{i}-\alpha_{i}\alpha_{k} \end{equation}$
这里的

δ $\delta$ 为Kronecker delta

Kronecker delta: $\delta_{i,j}=0\quad if\quad i\neq j\quad \delta_{i,j}=1\quad if \quad i=j$

c那么 $\alpha$ 关于E的梯度：

\partial E \partial α i = \partial E \partial u ℓ \partial u ℓ \partial α i = \sum u, v (δ ℓ ⊙ (x ℓ - 1 i * k ℓ i)) u v

$\begin{equation} \dfrac{\partial E}{\partial \alpha_{i}}=\dfrac{\partial E}{\partial u^{\ell}}\dfrac{\partial u^{\ell}}{\partial \alpha_{i}}=\sum_{u,v}(\delta^{\ell}\odot (\textbf{x}_{i}^{\ell -1} \ast \textbf{k}_{i}^{\ell}))_{uv} \end{equation}$

u j = \sum i α i (x ℓ - 1 i * k ℓ i) + b ℓ

$\begin{equation} \textbf{u}^{j}=\sum_{i}\alpha_{i}(\textbf{x}_{i}^{\ell -1} \ast \textbf{k}_{i}^{\ell})+\textbf{b}^{\ell} \end{equation}$
这里

δℓ $\delta^{\ell}$ 是输入为u的output map对应的

δ $\delta$ map，并且这里的卷积为“vaild convolution”，使得结果的尺寸和

δ $\delta$ map 的尺寸一致，现在可以用chain rule来计算E关于c的梯度：

\partial E \partial c i = \sum k \partial E \partial α k \partial α k \partial c i = α i (\partial E \partial α i - \sum k \partial E \partial α k α k)

$\begin{equation} \dfrac{\partial E}{\partial c_{i}}=\sum_{k}\dfrac{\partial E}{\partial \alpha_{k}}\dfrac{\partial \alpha_{k}}{\partial c_{i}}=\alpha_{i}(\dfrac{\partial E}{\partial \alpha_{i}}-\sum_{k}\dfrac{\partial E}{\partial \alpha_{k}}\alpha_{k}) \end{equation}$

Enforcing Space Combinations(加强稀疏性组合)

为了使得 $\alpha$ 的分布是稀疏的（e.g:(0.1,0,0…,0,0.9)），也就是使得一个output map不至于和很多的input map相关联，可以在最后的Loss Function中加入regularization penalty（稀疏约束项） $\Omega(\alpha)$ ，这样可以使得一部分权值朝着0方向变化，给出对一张图的error：

E ˜ n = E n + λ \sum i, j | (α) i j |

$\begin{equation} \widetilde{E}^{n}=E^{n}+\lambda\sum_{i,j}\vert(\alpha)_{ij}\vert \end{equation}$
只考虑一个输出的情况时：

\partial Ω \partial α i = λ s i g n (α i)

$\begin{equation} \dfrac{\partial \Omega}{\partial \alpha_i}=\lambda sign(\alpha_{i}) \end{equation}$

\partial Ω \partial c i = \sum k \partial Ω \partial α k \partial α k \partial c i = λ (| α i | - α i \sum k | α k |)

$\begin{equation} \dfrac{\partial \Omega}{\partial c_i}=\sum_{k}\dfrac{\partial \Omega}{\partial \alpha_k}\dfrac{\partial \alpha_k}{\partial c_i}=\lambda(\vert \alpha_{i}\vert-\alpha_{i}\sum_{k}\vert \alpha_{k}\vert) \end{equation}$
因为

x s i g n (x) = | x |

$\begin{equation} xsign(x)=\vert x\vert \end{equation}$
那么总体上

\partial E ˜ n \partial c i = \partial E n \partial c i + \partial Ω \partial c i

$\begin{equation} \dfrac{\partial \widetilde{E}^{n}}{\partial c_{i}}=\dfrac{\partial E^{n}}{\partial c_{i}}+\dfrac{\partial \Omega}{\partial c_{i}} \end{equation}$

lygztq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tutorial of CNN 笔记

tutorial of CNN 笔记Vanilla BP Through Fully Connected Networks这里只考虑二维CNN的情况Feedforward Pass这里使用平方误差Loss Function，对于一个c类N个sample的分类器，设 tnkt_{k}^{n} 为第n个图像在k-th维度上对应的label，ynky_{k}^{n} 为CNN的输出层对于第n个输入的pat
复制链接

扫一扫