Convolutional Neural Networks for Visual Recognition 7

最新推荐文章于 2021-08-28 16:49:43 发布

Matrix_11

最新推荐文章于 2021-08-28 16:49:43 发布

阅读量1.8k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

113 篇文章 145 订阅

订阅专栏

Two Simple Examples

softmax classifier

后，我们介绍两个简单的例子，一个是线性分类器，一个是神经网络。由于网上的讲义给出的都是代码，我们这里用公式来进行推导。首先看softmax classifier 的例子。给定输入 $X \in \mathbf{R}^{N \times D}$ ，权值 $W \in \mathbf{R}^{D \times K}$ ，偏移量 $b \in \mathbf{R}^{1 \times K}$ ，我们可以得到分类器对每个样本的预测分数： $f=XW+b$ ，我们可以用softmax 函数将预测分数转为概率： $p_{i}=\frac{e^{f_{i}}}{\sum_{j}e^{f_{j}}}$ ， $p_{i}$
表示样本属于第 $i$ 类的概率， $f_{i},f_{j}$ 表示线性函数对样本属于第 $i,j$ 类的预测分数。

我们可以建立如下的loss function：

L i = - l o g (p y i) = - l o g ⎛ ⎝ e f y i \sum j e f j ⎞ ⎠

$L_{i}=-log(p_{y_{i}}) = -log \left( \frac{e^{f_{y_{i}}}}{\sum_{j}e^{f_{j}}} \right)$

L = 1 N \sum i L i + 1 2 λ \sum k \sum l W 2 k, l

$L=\frac{1}{N}\sum_{i}L_{i}+\frac{1}{2}\lambda \sum_{k}\sum_{l}W_{k,l}^{2}$

下面我们推导loss对 $W,b$ 的偏导数，我们可以先计算loss对 $f$ 的偏导数，利用链式法则，我们可以得到：

\partial L i \partial f k = \partial L i \partial p k \partial p k \partial f k \partial p i \partial f k = p i (1 - p k) i = k \partial p i \partial f k = - p i p k i \neq k \partial L i \partial f k = - 1 p y i \partial p y i \partial f k = (p k - 1 {y i = k})

$\begin{equation*} \begin{split} & \frac{\partial L_{i}}{\partial f_{k}}= \frac{\partial L_{i}}{\partial p_{k}} \frac{\partial p_{k}}{\partial f_{k}} \\ & \frac{\partial p_{i}}{\partial f_{k}}=p_{i}(1-p_{k}) \quad i=k \\ & \frac{\partial p_{i}}{\partial f_{k}}=-p_{i}p_{k} \quad i \neq k \\ & \frac{\partial L_{i}}{\partial f_{k}}=-\frac{1}{p_{y_{i}}} \frac{\partial p_{y_{i}}}{\partial f_{k}}= \left(p_{k}-1\{y_{i}=k \}\right) \end{split} \end{equation*}$

进一步，由 $f=XW+b$ ，可知 $\frac{\partial f}{\partial W}=X^{T}, \frac{\partial f}{\partial b}=1$ ，我们可以得到：

Δ W = \partial L \partial W = 1 N \partial L i \partial W + λ W = 1 N \partial L i \partial p \partial p \partial f \partial f \partial W + λ W Δ b = \partial L \partial b = 1 N \partial L i \partial b = 1 N \partial L i \partial p \partial p \partial f \partial f \partial b W = W - α Δ W b = b - α Δ b

$\begin{equation*} \begin{split} & \Delta W=\frac{\partial L}{\partial W} =\frac{1}{N} \frac{\partial L_{i}}{\partial W} + \lambda W =\frac{1}{N} \frac{\partial L_{i}}{\partial p} \frac{\partial p}{\partial f} \frac{\partial f}{\partial W} +\lambda W \\ & \Delta b=\frac{\partial L}{\partial b} =\frac{1}{N} \frac{\partial L_{i}}{\partial b} =\frac{1}{N} \frac{\partial L_{i}}{\partial p} \frac{\partial p}{\partial f} \frac{\partial f}{\partial b} \\ & W=W-\alpha \Delta W \\ & b=b-\alpha \Delta b \end{split} \end{equation*}$

Neural Networks

上面介绍的是softmax 分类器，下面我们介绍神经网络。神经网络与softmax分类器类似，只是多了一个隐含层。我们先考虑其前向传递。

f 1 = X W 1 + b 1 h = m a x (0, f 1) f 2 = h W 2 + b 2 p i = e f 2 i \sum j e f 2 j L = 1 N \sum i L i + 1 2 λ \sum \sum w 21 + 1 2 λ \sum \sum w 22

$\begin{equation*} \begin{split} & f_{1}=XW_{1}+b_{1} \\ & h=max(0, f_{1}) \\ & f_{2}=hW_{2}+b_{2} \\ & p_{i}=\frac{e^{f_{2i}}}{\sum_{j}e^{f_{2j}}} \\ & L=\frac{1}{N}\sum_{i}L_{i}+\frac{1}{2}\lambda \sum \sum w_{1}^{2}+\frac{1}{2}\lambda \sum \sum w_{2}^{2} \end{split} \end{equation*}$

下面我们看如何利用BP对网络中的参数进行更新：

\partial L \partial f 2 = 1 N \partial L i \partial f 2 = 1 N (p k - 1 {y i = k}) Δ W 2 = \partial L \partial W 2 = \partial L \partial f 2 \cdot h + λ W 2 Δ b 2 = \partial L \partial b 2 = \partial L \partial f 2 Δ W 1 = \partial L \partial W 1 = \partial L \partial f 2 \partial f 2 \partial h \cdot X + λ W 1 Δ b 1 = \partial L \partial b 1 = \partial L \partial f 2 \partial f 2 \partial h

$\begin{equation*} \begin{split} & \frac{\partial L}{\partial f_{2}}=\frac{1}{N} \frac{\partial L_{i}}{\partial f_{2}} =\frac{1}{N} \left(p_{k}-1\{y_{i}=k \}\right) \\ &\Delta W_{2}= \frac{\partial L}{\partial W_{2}}=\frac{\partial L}{\partial f_{2}} \cdot h +\lambda W_{2} \\ &\Delta b_{2}= \frac{\partial L}{\partial b_{2}}=\frac{\partial L}{\partial f_{2}} \\ &\Delta W_{1}= \frac{\partial L}{\partial W_{1}}=\frac{\partial L}{\partial f_{2}} \frac{\partial f_{2}}{\partial h} \cdot X + \lambda W_{1} \\ &\Delta b_{1}= \frac{\partial L}{\partial b_{1}}=\frac{\partial L}{\partial f_{2}} \frac{\partial f_{2}}{\partial h} \end{split} \end{equation*}$

上面的表达式忽略了矩阵运算里的一些转置，实际编写代码的时候需要注意这一点，最后，我们可以得到如下的参数更新表达式：

W 1 = W 2 - α Δ W 2 b 1 = b 2 - α Δ b 2 W 1 = W 1 - α Δ W 1 b 1 = b 1 - α Δ b 1

$\begin{equation*} \begin{split} & W_{1}=W_{2}-\alpha \Delta W_{2} \\ & b_{1}=b_{2}-\alpha \Delta b_{2} \\ & W_{1}=W_{1}-\alpha \Delta W_{1} \\ & b_{1}=b_{1}-\alpha \Delta b_{1} \\ \end{split} \end{equation*}$

还有一点，上式的N表示训练集里的样本总数，如果我们要用batch模型，那么可以将整个训练集分成若干个batch，那么此时的N就是每个batch的样本数。