深度学习复习提纲

VIP文章「已注销」

已于 2022-06-17 00:48:26 修改

阅读量163

点赞数

文章标签：深度学习人工智能神经网络

于 2022-06-14 22:43:04 首次发布

本文链接：https://blog.csdn.net/int_main_roland/article/details/125287683

版权

Introduction

分类/回归 $\iff$ 函数 $f_i : \reals^d \to \reals$
类别, 概率, one hot embedding, softmax + cross entropy.
损失
- mean square error
- mean absolute error
- cross entropy (for probability ∈ [0,1])
梯度下降
- 梯度为零, 局部最优vs鞍点; 梯度极其接近于零.
- $\nabla L(\theta_t) = (\frac{\partial L}{\partial \theta}|_{\theta=\theta_t})$
- vanilla
  $\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)$
  $\theta_{t+1} = \theta_t + G_t$ , $G_t = - \eta \nabla L(\theta_t)$ .
- momentum
  $\theta_{t+1} = \theta_t - \eta \sum\limits_{s=1}^{t} \lambda^{t-s} \nabla L(\theta_t)$
  $\theta_{t+1} = \theta_t + G_t$ , $G_t = \lambda G^{(t-1)} - \eta \nabla L(\theta_t)$ .
- adam = rmsprop + momentum
adaptive learning rate
- $\theta_{t+1} = \theta_t + \frac{1}{H_t} G_t$
- adagrad
  $H_t = \sqrt{\frac{1}{t} \sum\limits_{s=1}^{t} |\nabla L(\theta_t)|^2}$
- rmsprop
  $H_t = \sqrt{\alpha^t |\nabla L(\theta_1)|^2 + (1-\alpha) \sum\limits_{s=1}^{t} \alpha^{t-s} |\nabla L(\theta_t)|^2}$
  ${H_t}^2 = \alpha {H_{t-1}}^2 + (1-\alpha) |\nabla L(\theta_t)|^2$
learning rate scheduling
- decay ↘
- warm up ↗ ↘
batch
- epoch = sample / batch
- large batch, fast training, sharp minima; small batch, noisy gradient, better optimization and generalization.
激活函数
- hard sigmoid
- sigmoid
- ReLU
神经网络
- $\sigma(b + Wx)$ , $\frac{\partial L}{\partial W} = \frac{\partial L}{\partial z} \frac{\partial \sigma}{\partial (b + Wx)} \frac{\partial (b + Wx)}{\partial W} = \frac{\partial L}{\partial z} \sigma(1-\sigma) x^T$ , $\frac{\partial L}{\partial b} = \frac{\partial L}{\partial z} \frac{\partial \sigma}{\partial (b + Wx)} \frac{\partial (b + Wx)}{\partial b} = \frac{\partial L}{\partial z} \sigma(1-\sigma)$ .
深度学习 vs 表示学习
深度网络 vs 宽度网络
pytorch
- 计算图
- x.grad
- torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=‘valid’, dilation=1, groups=1, bias=True, padding_mode=‘zeros’, device=None, dtype=None)
- torch.nn.LSTM(input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0, bidirectional=False, proj_size=0)
验证与测试
- oof(out of fold)与cv(cross validation)
- train loss与test loss(优化与泛化)
  train loss大(无法优化), bias(模型太简单), 优化技术.
  train loss小test loss大(无法泛化), variance(模型太复杂), 分布变化.

CNN

receptive field
parameter sharing
subsampling / pooling
feature map
activation maximization vs saliency map (gradient)
图像任务
- LeNet, AlexNet, VGG, GoogleLeNet, ResNet.
- LeNet, 卷积+池化, 先卷积再全连接. ~~(LeCun)~~
- AlexNet, ReLU解决深度梯度消失, DropOut解决深度过拟合. ~~(Hinton)~~
- VGG, 3x3核. ~~(牛津)~~
- GoogleLeNet, 多种卷积核. ~~(谷歌)~~
- ResNet, 残差连接同时解决深度梯度消失和深度过拟合. ~~(何恺明孙剑)~~

祭
孙剑今日辞世.

RNN

elman $y_t = f(c_{t-1}, x_t)$
jordan $y_t = f(y_{t-1}, x_t)$
bidirectional $\bar{y} = y_{\leftarrow}+y_{\rightarrow}$
LSTM
$\begin{aligned} g_t =& \tanh(W^{g}_x x_t + W^{g}_h h_{t-1} + b^{g}) \\ i_t =& \sigma(W^{i}_x x_t + W^{i}_h h_{t-1} + b^{i}) \\ f_t =& \sigma(W^{f}_x x_t + W^{f}_h h_{t-1} + b^{f}) \\ c_t =& f_t \odot c_{t-1} + i_t \odot g_t \\ o_t =& \sigma(W^{o}_x x_t + W^{o}_h h_{t-1} + b^{o}) \\ h_t =& o_t \odot \tanh(c_t) \\ \end{aligned}$