2019秋招备战-深度学习基础

最新推荐文章于 2023-02-23 14:54:03 发布

Johnson0722

最新推荐文章于 2023-02-23 14:54:03 发布

阅读量660

点赞数 2

分类专栏：面试

本文链接：https://blog.csdn.net/John_xyz/article/details/82285605

版权

面试专栏收录该内容

5 篇文章 0 订阅

订阅专栏

深度学习基础

激活函数

sigmoid
- $\sigma(x) = \frac{1}{1+e^{-x}}$
- 容易出现梯度消失的现象；当激活函数接近饱和区时，变化太缓慢，导数接近0
- Sigmoid 的 output 不是0均值； f=sigmoid(wx+b)为例，假设输入均为正数（或负数），那么对w的导数总是正数（或负数），这样在反向传播过程中要么都往正方向更新，要么都往负方向更新
- 幂运算相对耗时
tanh
- $\frac{e^x - e^{-x}}{e^{x} + e^{-x}}$
- tanh函数将输入值压缩到 -1~1 的范围，因此它是0均值的，解决了Sigmoid函数的非zero-centered问题，但是它也存在梯度消失和幂运算的问题
relu
- Relu(x) = max(0,x)
- 优点：
  - SGD算法的收敛速度比 sigmoid 和 tanh（梯度不会饱和，解决了梯度消失问题）
  - 计算复杂度低，不需要进行指数运算；
- 缺点：
  - ReLU的输出不是zero-centered
  - Dead ReLU Problem（神经元坏死现象）：某些神经元可能永远不会被激活，导致相应参数永远不会被更新（在负数部分，梯度为0）
  - ReLU不会对数据做幅度压缩，所以数据的幅度会随着模型层数的增加不断扩张

parameters initialization

initialize weights ~Uniform(-r,r)， r =
$\sqrt{6/(fan_{in} + fan_{out})}$
其中 $fan_{in}$ 是前一层的维度， $fan_{out}$ 是后一层的维度

CNN

稀疏链接
参数共享
平移不变性

RNN

forward propagation

$S_t = \sigma(W_{s}S_{t-1} + W_{x}x_t+b_1)$
$\hat y_t = softmax(W_os_t+b_2)$

loss
- The loss at time-step $t$
  $J^t(\theta) = -\sum_{j=1}^{|V|}y_{t,j}log(\hat y_{t,j})$
- total loss
  $-\frac {1}{T}\sum_{t=1}^TJ^{(t)}(\theta) = -\frac {1}{T}\sum_{t=1}^T\sum_{j=1}^{|V|}y_{t,j}log(\hat y_{t,j})$
RNN梯度消失的原因
假设时间序列只有三段， $S_0$ 为给定值，神经元没有激活函数，RNN的前向传播过程如下：
$S_1 = W_xX_1 + W_sS_0 + b_1$
$\hat{y_1} = W_oS_1 + b_2$
$S_2 = W_xX_2 + W_sS1 + b1$
$\hat{y_2} = W_oS_2 + b_2$
$S_3 = W_xX_3 + W_sS2 + b_1$
$\hat{y_3} = W_oS_3 + b_2$
假设在 $t = 3$ 时刻，损失函数为平方损失函数
$L_3 = \frac{1}{2}(y_3 - \hat{y_3})^2$
$L_t = \frac{1}{2}(y_t - \hat{y_t})^2$
则一次训练任务的损失函数为每一时刻损失值得累加
$\sum_{t=0}^TL_t$
使用随机梯度下降法训练RNN就是不断地对 $W_x$ ， $W_s$ , $W_o$ 求偏导数，不断的调整这些参数使 $L$ 最小
现在对 $t_3$ 时刻的 $W_x$ ， $W_s$ , $W_o$ 求偏导数

但是对于 $W_{x}$ 、 $W_{s}$ 求偏导，会随着时间序列产生长期依赖。因为 $S_{t}$ 随着时间序列向前传播，而 $S_{t}$ 又是 $W_{x}$ 、 $W_{s}$ 的函数
如果加上激活函数
$S_j=tanj(W_xX_j + W_sS_{j-1} + b_1)$
$\prod_{j=k+1}^t\frac{\partial{S_j}}{\partial{S_{j-1}}} = \prod_{j=k+1}^ttanh^{'}W_s$
而tanh的导数是一个小于1的数,所以容易出现梯度消失的现象。
需要注意的是，梯度消失是随着层数增加逐渐消失的。就拿上面提到的对 $t_3$ 时刻的 $W_x$ 求偏导，其实是 $t_3$ , $t_2$ , $t_1$ 时刻 $L_3$ 对 $W_x$ 求偏导的累加，如果要求 $L_3$ 对 $t_1$ 时刻 $W_x$ 的梯度就要消失了。
Solution to the Exploding & Vanishing Gradients
- clips gradients to a small number whenever they explode
- use the Rectified Linear Units (ReLU) instead of the sigmoid function(solve vanishing gradients)

LSTM解决梯度消失

LSTM有三个gate，分别是forget gate, input gate, output gate，通过下面 $f_{t}$ , $i_{t}$ , $o_{t}$ 三个函数来控制，因为 $\sigma(x)$ 的值是介于0到1之间的，刚好用趋近于0时表示流入不能通过gate，趋近于1时表示流入可以通过gate。 $g_t表示输入$
$f_t = \sigma(W_{fx}X_t+W_{fh}h_{t-1} + b_f)$
$i_t = \sigma(W_{ix}X_t+W_{ih}h_{t-1} + b_i)$
$o_t = \sigma(W_{ox}X_t +W_{oh}h_{t-1}+ b_o)$
$g_t = \sigma(W_{gx}X_t +W_{gh}h_{t-1}+ b_g)$
状态转移与RNN类似
$S_t = f_tS_{t-1} + i_t*...$
类似于RNN，计算LSTM的 $\frac{\partial{S_t}}{S_{t-1}}$
$\frac{\partial{S_t}}{S_{t-1}} = f_t + ...$
公式里其余的项不重要，这里就用省略号代替了**。可以看出当 $f_t= 1$ 时，就算其余项很小，梯度仍然可以很好地传导到上一个时刻**，此时即使层数较深也不会发生 Gradient Vanish 的问题；当 $f_t = 0$ 时，即上一时刻的信号不影响到当前时刻，则此项也会为0； $f_t$ 在这里控制着梯度传导到上一时刻的衰减程度，与它 Forget Gate 的功能一致。

Solution to the Exploding & Vanishing Gradients
- clips gradients to a small number whenever they explode
- use the Rectified Linear Units (ReLU) instead of the sigmoid function(solve vanishing gradients)

FTRL optimization

word2vec

word2vec主要有两种训练方式: CBOW(continue bag of words) 和 skip-gram

Cbow
$\sum_{w \in C}log(p(w|Context(w))$
skipgram
$\sum_{w \in C}log(p(context(w)|w))$
模型加速方法
- Negative sampling
  - 带权负采样。对于高频次，采样概率比较大；对于低频词，采样概率比较低
- Huffman tree
  - 输出的是一个Huffman树形结构，每一次分支都可以视为进行了一次二分类

Johnson0722

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2019秋招备战-深度学习基础

深度学习基础激活函数sigmoid σ(x)=11+e−xσ(x)=11+e−x\sigma(x) = \frac{1}{1+e^{-x}} 容易出现梯度消失的现象；当激活函数接近饱和区时，变化太缓慢，导数接近0Sigmoid 的 output 不是0均值； f=sigmoid(wx+b)为例，假设输入均为正数（或负数），那么对w的导数总是正数（或负数），这样在反向传播过程...
复制链接

扫一扫