Improving the way neural networks learn

最新推荐文章于 2019-05-03 16:53:03 发布

IgorW

最新推荐文章于 2019-05-03 16:53:03 发布

阅读量409

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/github_29374279/article/details/52070909

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Improving the way neural networks learn

@(深度学习)[深度学习]

二次代价函数

C = ( y - a ) 2 2 a 是 一 个 输 出 神 经 元 ， 当 训 练 集 输 入 等 于 x = 1, y = 0 时 ： \partial C \partial w = (a - y) σ' (z) x = a σ' (z) \partial C \partial b = (a - y) σ' (z) = a σ' (z) (a) (b) z = w x + b a = σ (z)

$C = \frac{(y-a)^2}{2} \\ a是一个输出神经元，当训练集输入等于x=1,y=0时：\\ \begin{align} \frac{\partial C}{\partial w} = (a-y)\sigma'(z) x = a \sigma'(z) \tag{a}\\ \frac{\partial C}{\partial b} = (a-y)\sigma'(z) = a \sigma'(z)\tag{b}\end{align}\\ z = wx + b \\ a = \sigma (z)$

问题：当输出a趋近1的时候， $\sigma'(z)$ 会变的非常小（ $\sigma'(z) = \sigma(z)(1-\sigma(z))$ ），这个时候偏导也会变的特别小，因此学习的速度会下降

优化的方法

代价函数的选择：cross-entropy
正则化方法：L1;L2;dropout;artificial expantion(提升模型范化的能力)
初始化weights的方法
选择超参数的方法

cross-entropy cost function

C = - 1 n \sum x [y ln a + (1 - y) ln (1 - a)], (1)

$\begin{eqnarray} C = -\frac{1}{n} \sum_x \left[y \ln a + (1-y ) \ln (1-a) \right], \tag{1}\end{eqnarray}$

解决二次代价函数学习缓慢的问题：从下面的公式可以看出cross-entropy代价函数对 $w$ 和 $b$ 的偏导和 $\sigma'(z)$ 无关，仅和 $\sigma(z)-y$ (错误)有关系

在什么时候cross-entropy能够被解释为代价函数：
- C是一个非负的函数，可以观察到y的取值是0或1,a的取值在(0,1)之间，因此C>0
- 当神经元的输出趋近于期望的输出时，C会接近0， $C \rightarrow 0$
- 总结而言 : cross-entropy是正的，且当神经元计算出接近于期望输出的值时，cross-entropy趋近于0

\partial C \partial w j = - 1 n \sum x (y σ ( z ) - ( 1 - y ) 1 - σ ( z )) \partial σ \partial w j = - 1 n \sum x (y σ ( z ) - ( 1 - y ) 1 - σ ( z )) σ' (z) x j . (2) (3)

$\begin{align} \frac{\partial C}{\partial w_j} &= -\frac{1}{n} \sum_x \left( \frac{y }{\sigma(z)} -\frac{(1-y)}{1-\sigma(z)} \right) \frac{\partial \sigma}{\partial w_j} \tag{2}\\ &= -\frac{1}{n} \sum_x \left( \frac{y}{\sigma(z)} -\frac{(1-y)}{1-\sigma(z)} \right)\sigma'(z) x_j. \tag{3}\end{align}$

合 并 化 简 ： \partial C \partial w j = 1 n \sum x x j (σ (z) - y) . (4)

$合并化简： \begin{eqnarray} \frac{\partial C}{\partial w_j} = \frac{1}{n} \sum_x x_j(\sigma(z)-y). \tag{4}\end{eqnarray}$
同理，对b的偏导：

\partial C \partial b = 1 n \sum x (σ (z) - y) . (4)

$\begin{eqnarray} \frac{\partial C}{\partial b} = \frac{1}{n} \sum_x (\sigma(z)-y). \tag{4}\end{eqnarray}$

cross-entropy to many-neuron multi-layer networks：

C = - 1 n \sum x \sum j [y j ln a L j + (1 - y j) ln (1 - a L j)] . (5)

$\begin{eqnarray} C = -\frac{1}{n} \sum_x \sum_j \left[y_j \ln a^L_j + (1-y_j) \ln (1-a^L_j) \right]. \tag{5}\end{eqnarray}$

假如输出神经元是sigmoid neurons,cross-entropy总是更好的选择，在模型训练之前我们将会初始化参数w和b，可能会导致计算过程中输入x=1，输入结果是0的情况，这样的情况下，二次代价函数的学习速度会下降甚至停止。

代价函数对 $w_{jk}^L$ 的偏导：

\partial C \partial w L j k = 1 n \sum x a L - 1 k (a L j - y j) . (67)

$\begin{eqnarray} \frac{\partial C}{\partial w^L_{jk}} = \frac{1}{n} \sum_x a^{L-1}_k (a^L_j-y_j). \tag{67}\end{eqnarray}$
相比二次代价函数消去了 $\sigma'(z_j^L)$

\partial C \partial b L j = 1 n \sum x (a L j - y j)

$\frac {\partial C} {\partial b^L_j} = \frac{1}{n} \sum_x (a^L_j - y_j)$

假如输出层使用线性神经元，即激活函数不使用sigmoid，而是简单的使用 $a_j^L = z_j^L$ 时，不会产生速度下降的问题，这个时候二次代价函数同样适用

总结：在选择代价函数的时候，应该考虑输出层激活函数的情况，输出层同时也对应机器学习中单个元的分类或者回归问题，通常分类问题选择cross-entropy，回归问题选择二次函数

Softmax

为神经网络定义了一种新的输出类型

a L j = e z L j \sum k e z L j

$a_j^L = \frac{e^{z_j^L}} {\sum_k e^{z_j^L}}$

特性：
- 输出相加等于一
- 输出的值总是正数
- 也就是说：softmax的输出可以看作一个概率分布
- $\frac {\partial a_j^L} {\partial z_k^L}$ 当 $j= k$ 的时候为正 $j \neq k$ 时为负

区别：
- sigmoid层的输出 $a_j^L$ 是对应加权输入的函数
- softmax层的输出与上一层的所有加权输入相关

softmax-learning slowdown problem

log-likelihood cost: $C \equiv - ln a^L_y$
说明：在数字识别的例子中，假如输入的图像是数字7,那么log-likelihood cost为 $C \equiv - ln a^L_7$ ,在这个例子中， $a^L_7$ 是该输入为7的概率，假如此时模型能够较准确的估计，那么 $a^L_7$ 趋近与1，则 $C$ 会变得很小，相当于代价小。

sigmoid输出层——cross-entropy
softmax输出层——log-likelihood
identity输出层 ——quadratic

记住：backprogation假设了代价函数能够被写成输出层神经元的函数：
$C = C (a L)$ $C = C(a^L)$

Backpropagation with softmax and the log-likelihood cost

输出层softmax： $a^L_j = \frac {e^{z^L_j}}{\sum_k e^{z^L_k}}$
代价函数（逻辑似然函数）： $C = - \sum_k y_kln a^L_k$

$δ L j = \partial C \partial z L j = \partial C \partial a L j \partial a L j \partial z L j = a L j - y j$ $\begin{align} \delta^L_j &= \frac{\partial C}{\partial z^L_j} \\ &= \frac{\partial C}{\partial a^L_j} \frac{\partial a^L_j}{\partial z^L_j} \\ &= a_j^L - y_j \end{align}$

regularization

L1 regularization:

$C = C 0 + λ n \sum w | w |$ $C = C_0 + \frac{\lambda}{n} \sum_w |w|$
$\partial C \partial w = \partial C 0 \partial w + λ n s g n (w)$ $\frac{\partial C}{\partial w} = \frac{\partial C_0}{\partial w} + \frac{\lambda}{n} sgn(w)$

梯度下降的权重更新:

$w \to w' = w - n λ n s g n (w) - η \partial C 0 \partial w$ $w \rightarrow w' = w - \frac{n\lambda}{n} sgn(w) - \eta \frac{\partial C_0}{\partial w}$

$l_1$ 的作用是,当 $\lambda$ 足够大的时候,迫使一些参数估计精确的等于0,相当于执行了些特征选择

因此lasso模型更加适应于特征数量较少的数据集

L2 regularization: $l2$ 则会利用所有特征,只是对参数的值进行限制

In L1 regularization, the weights shrink by a constant amount toward 0. In L2 regularization, the weights shrink by an amount which is proportional to w

Dropout:修改神经网络的结构避免过拟合