Task5-神经网络设计的技巧

最新推荐文章于 2024-08-15 23:39:34 发布

Evelyn Young

最新推荐文章于 2024-08-15 23:39:34 发布

阅读量123

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37572755/article/details/119866509

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

优化失败的可能原因

在critical point卡住了，即梯度为0的地方卡住了。

两种critical point：局部最小点；鞍点

在低维度中的局部最小点在高维度中可能是鞍点；在低维度中的critical point在高维度中可能不属于critical point

找出是哪一种情形：泰勒级数

当 $\theta$ 趋于 $\theta'$ 时：
$L(\theta)≈L(\theta')+(\theta-\theta')^T \frac{\partial \theta'}{\partial \theta_i}+\frac{1}{2}(\theta-\theta')^T\frac{\partial^2L(\theta')}{\partial\theta_i\partial\theta_j}(\theta-\theta')$

对于critical point，一次微分项为0，即 $(\theta-\theta')^T \frac{\partial \theta'}{\partial \theta_i}=0$

记 $(\theta-\theta')^T\frac{\partial^2L(\theta')}{\partial\theta_i\partial\theta_j}(\theta-\theta')=v^THv$

其中 $H =$
$\begin{bmatrix} \frac{\partial^2 L}{\partial \theta^2_1} & \frac{\partial^2 L}{\partial \theta_1\partial\theta_2} \\ \frac{\partial^2 L}{\partial \theta_2\partial\theta_1} & \frac{\partial^2 L}{\partial \theta^2_2} \end{bmatrix}$
对所有的 $v$ ：

$v^THv>0\to$ 在 $\theta'$ 附近 $L(\theta)>L(\theta')\to$ 局部最小
$v^THv<0\to$ 在 $\theta'$ 附近 $L(\theta)<L(\theta')\to$ 局部最大
$v^THv$ 时大时小 $\to$ 鞍点

延伸：（序号和上方一一对应）

H是正定矩阵（所有特征值为正）
H是负定矩阵（所有特征值为负）
H的特征值有正有负

逃离鞍点（理论上）

记 $H$ 的特征向量为 $u$ ，则 $u^THu=\lambda||u||^2$

若 $\lambda<0\Rightarrow \lambda||u||^2<0\Rightarrow u^THu<0$

$\Rightarrow L(\theta)≈L(\theta')+\frac{1}{2}u^THu <L(\theta')$

即令 $\theta=\theta'+u$ 可以减小 $L$

也就是说，往 $u$ 的方向移动可以减小 $L$

（实际使用过程中通常不用 $\to$ 计算太复杂）

分组计算

将训练数据分为很多个小组，每计算完一组数据更新一次参数

大组合小组的对比

比较	小组	大组
速度	一样	一样
一个周期的时长	慢	快
梯度	有噪音	稳定
优化性能	更好	更差
Generalization	更好	更差

训练时，大、小组训练得一样好，但在测试时小组表现更好。via On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima.

加入动量

梯度下降+动量：更新参数的方向改为梯度的反方向+上一次更新的方向（向量和）
$\theta^0,m^0=0\Rightarrow 计算g^0\Rightarrow m^1=\lambda m^0-\eta g^0$

$\Rightarrow \theta^1=\theta^0+m^1\Rightarrow计算g^1\Rightarrow m^2=\lambda m^1-\eta g^1$

$\dots$

$m^i=\lambda m^{i-1}-\eta g^{i-1}\Rightarrow \theta^i=\theta^{i-1}+m^i$

实质上： $m^i$ 是 $g^0, \dots g^{i-1}$ 的加权和

动态调参

特制 $\eta$

见adagrad

希望同参数同方向也可以动态调整 $\eta \Rightarrow RMSProp$

$\theta^1=\theta^0-\frac{\eta}{\sigma^0}g^0, \sigma^0=\sqrt{(g^0)^2}$

$\theta^2=\theta^1-\frac{\eta}{\sigma^1}g^1, \sigma^1=\sqrt{\alpha(\sigma^0)^2+(1-\alpha)(g^1)^2}$

$\dots$

$\theta^t=\theta^{t-1}-\frac{\eta}{\sigma^t}g^t, \sigma^t=\sqrt{\alpha(\sigma^{t-1})^2+(1-\alpha)(g^t)^2}$

$\star$ 加入 $\alpha$ 衡量 $g^i$ 的重要性

其他工具：adam=RMSProop+动量，在pytorch中可以直接调用，一般不调预设参数

Learning Rate Scheduling

调整 $\theta^{t+1}=\theta^t-\frac{\eta ^t}{\sigma ^t}m^t$ 中的 $\eta^t$

Decay： $\eta$ 随时间越来越小（越来越接近目标，所以减小步长以免在步长内跳过目标）
Warm Up： $\eta$ 先变大再变小

用回归做分类问题

使不同类别间距一致的方法

设为向量
$1:\begin{bmatrix} 1\\0\\0 \end{bmatrix}$ $\ class2:\begin{bmatrix} 0\\1\\0 \end{bmatrix} \ class3:\begin{bmatrix} 0\\0\\1 \end{bmatrix}$

同时网络由单输入单输出变为多输入多输出
在这里插入图片描述
$y=b'+w'\sigma(b+wx)\Rightarrow y'=softmax(y)\Leftrightarrow\hat{y}$

softmax

将y映射为(0,1)的实数，并归一化使和为1。

$y'=\frac{e^{y_i}}{\sum_i e^{y_i}} \Rightarrow \left\{\begin{matrix}0<y_i<1，\\\sum_i y'_i=1 \end{matrix}\right.$

会让差距大的值之间的差距更大

当只有2个类别时，直接取sigmoid效果和用softmax一样

计算损失

$L=\frac{1}{N}\sum_ne_n$

$e_n$ 有两种计算方法：

均方误差： $e_n=\sum_i(\hat{y_i}-y_i')^2$
交叉熵： $e_n=-\sum_i\hat{y_i}lny_i'$

均方误差在损失大的地方可能会卡主，交叉熵更适合用于分类问题。

使交叉熵 $m i n$ 等价于使相似度 $m a x$ 。

分批次标准化

前情提要：特征缩放

如果使用sigmoid作为激活函数，则在sigmoid之前做特征缩放更好 $\Rightarrow$ 在0附近有更大的梯度值

分批次标准化

在这里插入图片描述
要使均值不为0，加入新的参数进去：

在测试时，可能无法获得一个Batch的数据就要进行计算，解决方法：
对每一个batch的 $\mu$ 和 $\sigma$ 都拿来计算动态均值

$\overline{\mu}=p\overline{\mu}+(1-p)\mu^t$
$\overline{\sigma}=p\overline{\sigma}+(1-p)\sigma^t$

$\Rightarrow \tilde{z}=\frac{z-\overline{\mu}}{\overline{\sigma}}$

Evelyn Young

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Task5-神经网络设计的技巧

优化失败的可能原因在critical point卡住了，即梯度为0的地方卡住了。两种critical point：局部最小点；鞍点在低维度中的局部最小点在高维度中可能是鞍点；在低维度中的critical point在高维度中可能不属于critical point找出是哪一种情形：泰勒级数当θ\thetaθ趋于θ′\theta'θ′时：L(θ)≈L(θ′)+(θ−θ′)T∂θ′∂θi+12(θ−θ′)T∂2L(θ′)∂θi∂θj(θ−θ′)L(\theta)≈L(\theta')+(\theta-
复制链接

扫一扫