AI随笔、

最新推荐文章于 2023-05-09 11:00:00 发布

爱编程真是太好了

最新推荐文章于 2023-05-09 11:00:00 发布

阅读量203

点赞数

分类专栏：机器学习深度学习文章标签：机器学习深度学习概率论

本文链接：https://blog.csdn.net/u012526436/article/details/120020983

版权

深度学习同时被 2 个专栏收录

44 篇文章 6 订阅

订阅专栏

机器学习

41 篇文章 18 订阅

订阅专栏

参数初始化

一般来说，正态分布的采样结果更多样化一些，但它理论上是无界的，如果采样到绝对值过大的结果可能不利于优化；相反均匀分布是有界的，但采样结果通常更单一。于是就出现了结合两者优点的“截尾正态分布”。截尾正态分布既指定均值 $\mu$ 和方差 $\sigma^2$ ，也需要指定区间 $[a, b]$ ，它从 $\mathcal{N}(\mu,\sigma^2)$ 中采样，如果采样结果在 $[a, b]$ 中，那么保留该结果，否则重复采样直到采样结果落到 $[a, b]$ 中

关于标准化

普通的Batch Normalization
$y_{i, j, k}=\frac{x_{i, j, k}-\mu_{i, j}}{\sqrt{\sigma_{i, j}^{2}+\epsilon}} \times \gamma_{k}+\beta_{k}, \quad \mu_{i, j}=\frac{1}{d} \sum_{k=1}^{d} x_{i, j, k}, \quad \sigma_{i, j}^{2}=\frac{1}{d} \sum_{k=1}^{d}\left(x_{i, j, k}-\mu_{i, j}\right)^{2}$
但在有些情况下，center化反而效果不好，所以也有新的Normalization的提出，例如RMS Norm
$y_{i, j, k}=\frac{x_{i, j, k}}{\sqrt{\sigma_{i, j}^{2}+\epsilon}} \times \gamma_{k}, \quad \sigma_{i, j}^{2}=\frac{1}{d} \sum_{k=1}^{d} x_{i, j, k}^{2}$
在T5中，使用的就是这种Norm。center操作，类似于全连接层的bias项，储存到的是关于数据的一种先验分布信息，而把这种先验分布信息直接储存在模型中，反而可能会导致模型的迁移能力下降。

为什么Attention中除以 $\sqrt d$ 这么重要？

对于两个 $d$ 维向量 $q, k$ ，假设它们都采样自“均值为0、方差为1”的分布，那么它们的内积的二阶矩是 $d$ ，由于均值也是0，那么方差也是 $d$ 。Attention是内积后softmax，主要设计的运算是 $e^{q·k}$ ，我们可以大致认为内积之后、softmax之前的数值在 $- 3 d$ 到 $3 d$ 这个范围内，由于 $d$ 通常都至少是64，所以 $e^d$ 非常大而 $e^{-d}$ 非常小，因此经过softmax之后，Attention的分布非常接近一个one hot分布了，这带来严重的梯度消失问题，导致训练效果差。

相应地，解决方法就有两个，一是在内积之后除以 $\sqrt d$ ，使 $q \cdot k$ 的方差变为1，对应 $e^1$ ， $e^{-1}$ 都不至于过大过小，这样softmax之后也不至于变成one hot而梯度消失了，这也是常规的Transformer如BERT里边的Self Attention的做法；另外就是不除以 $\sqrt d$ ，但是初始化 $q \cdot k$ 的全连接层的时候，其初始化方差要多除以一个 $d$ ，这同样能使得使 $q \cdot k$ 的初始方差变为1，T5采用了这样的做法。

 module.q.weight.data.normal_(mean=0.0, std=factor * ((d_model * key_value_proj_dim) ** -0.5))
 module.k.weight.data.normal_(mean=0.0, std=factor * (d_model ** -0.5))
 module.v.weight.data.normal_(mean=0.0, std=factor * (d_model ** -0.5))

TM中的残差模块

如果 $x$ 的方差为 $\sigma^2_1$ 而 $F (x)$ 的方差为 $\sigma^2_2$ ，并且假设两者相互独立，那么 $x + F (x)$ 的方差为 $\sigma^2_1+\sigma^2_2$ 。也就是说，残差会进一步放大方差，所以我们也要想相应的策略缩小其方差。所以TM中接了Norm
$x_{t+1}=\operatorname{Norm}\left(x_{t}+F_{t}\left(x_{t}\right)\right)$
这个也称为Post Norm，假设初始状态下 $x, F (x)$ 的方差均为1，那么 $x + F (x)$ 的方差就是2，而Normalization操作负责将方差重新降为1，这就说明初始阶段Post Norm相当于
$x_{t+1}=\frac{x_{t}+F_{t}\left(x_{t}\right)}{\sqrt{2}}$
当网络很深时就有
$\begin{aligned} x_{l} &=\frac{x_{l-1}}{\sqrt{2}}+\frac{F_{l-1}\left(x_{l-1}\right)}{\sqrt{2}} \\ &=\frac{x_{l-2}}{2}+\frac{F_{l-2}\left(x_{l-2}\right)}{2}+\frac{F_{l-1}\left(x_{l-1}\right)}{\sqrt{2}} \\ &=\cdots \\ &=\frac{x_{0}}{2^{l / 2}}+\frac{F_{0}\left(x_{0}\right)}{2^{l / 2}}+\frac{F_{1}\left(x_{1}\right)}{2^{(l-1) / 2}}+\frac{F_{2}\left(x_{2}\right)}{2^{(l-2) / 2}}+\cdots+\frac{F_{l-1}\left(x_{l-1}\right)}{2^{1 / 2}} \end{aligned}$
本来残差的意思是给前面的层搞一条“绿色通道”，让梯度可以更直接地回传，但是在Post Norm中，这条“绿色通道”被严重削弱了，越靠近前面的通道反而权重越小，残差“名存实亡”。

一个针对性的改进称为Pre Norm，它的思想是“要用的时候才去标准化”，其形式为
$x_{t+1}=x_{t}+F_{t}\left(\operatorname{Norm}\left(x_{t}\right)\right)$
类似地，迭代展开之后我们可以认为初始阶段有
$x_{l}=x_{0}+F_{0}\left(x_{0}\right)+F_{1}\left(x_{1} / \sqrt{2}\right)+F_{2}\left(x_{2} / \sqrt{3}\right)+\cdots+F_{l-1}\left(x_{l-1} / \sqrt{l}\right)$
这样一来，起码每一条残差通道都是平权的，残差的作用会比Post Norm更加明显，所以它也更好优化。当然，这样最后的 $x_l$ 方差将会很大，所以在接预测层之前 $x_l$ 也还要加个Normalization。

除此之外，还有更优的方案，成为SkipInit、ReZero，引入一个初始化为0的标量参数 $\alpha_t$ ，然后再逐渐更新 $\alpha_t$
$x_{t+1}=x_{t}+\alpha_{t} F_{t}\left(x_{t}\right)$

线搜索和信赖域

线搜索方法的策略是，先确定优化变量的更新方向 $p_K$ ，然后在该方向上确定一个最佳的步长 $\alpha$ ，使得目标函数沿着该方向前进 $\alpha$ 距离后下降得最多，相当于求解下式
在这里插入图片描述
信赖域方法的策略则有所不同，先用另一个简单的模型 $m_k$ 近似目标函数，然后确定一个信赖域半径 $\Delta_k$ ，在该半径限制的范围内寻找一个使得模型下降最多的更新量 $p$ ，相当于求解下式

在这里插入图片描述

也就是说，线搜索方法是先确定方向，再确定步长，而信赖域方法是先确定最大步长，再确定方向和实际步长。

Lipschitz

Lipschitz条件，即利普希茨连续条件（Lipschitz continuity）。其定义为：对于函数f(x),若其任意定义域中的 $x 1, x 2$ ，都存在 $L > 0$ ，使得 $∣ f (x 1) - f (x 2) ∣ \leq L ∣ x 1 - x 2 ∣$ 。大白话就是：存在一个实数 $L$ ，使得对于函数 $f (x)$ 上的每对点，连接它们的线的斜率的绝对值不大于这个实数 $L$ 。最小的 $L$ 称为该函数的Lipschitz常数。

对比学习的本质

对比学习系统应该具备两个属性：Alignment和Uniformity（参考上图）。所谓“Alignment”，指的是相似的例子，也就是正例，映射到单位超球面后，应该有接近的特征，也即是说，在超球面上距离比较近；所谓“Uniformity”，指的是系统应该倾向在特征里保留尽可能多的信息，这等价于使得映射到单位超球面的特征，尽可能均匀地分布在球面上，分布得越均匀，意味着保留的信息越充分。乍一看不好理解“分布均匀和保留信息”两者之间的关联，其实道理很简单：分布均匀意味着两两有差异，也意味着各自保有独有信息，这代表信息保留充分。

总体而言，温度参数 τ 起到如下作用：温度参数会将模型更新的重点，聚焦到有难度的负例，并对它们做相应的惩罚，难度越大，也即是与距离越近，则分配到的惩罚越多。所谓惩罚，就是在模型优化过程中，将这些负例从身边推开，是一种斥力。也就是说，距离越近的负例，温度超参会赋予更多的排斥力，将它从推远。而如果温度超参数 τ 设置得越小，则InfoNCE分配惩罚项的范围越窄，更聚焦在距离比较近的较小范围内的负例里。同时，这些被覆盖到的负例，因为数量减少了，所以，每个负例，会承担更大的斥力（参考上图左边子图）。极端情况下，假设温度系数趋近于0，那么InfoNCE基本退化为Triplet，也就是说，有效负例只会聚焦在距离最近的一到两个最难的实例。从上述分析，可以看出：温度超参越小，则更倾向把超球面上的局部密集结构推开打散，使得超球面上的数据整体分布更均匀（参考上图右边子图）。

深度学习的本质

深度学习的本质就是做两件事情：Representation Learning（表示学习）和 Inductive Bias Learning（归纳偏好学习）

爱编程真是太好了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI随笔、

参数初始化一般来说，正态分布的采样结果更多样化一些，但它理论上是无界的，如果采样到绝对值过大的结果可能不利于优化；相反均匀分布是有界的，但采样结果通常更单一。于是就出现了结合两者优点的“截尾正态分布”。截尾正态分布既指定均值μ\muμ和方差σ2\sigma^2σ2，也需要指定区间[a,b][a,b][a,b]，它从N(μ,σ2)\mathcal{N}(\mu,\sigma^2)N(μ,σ2)中采样，如果采样结果在[a,b][a,b][a,b]中，那么保留该结果，否则重复采样直到采样结果落到[a,b][a,
复制链接

扫一扫