SGD中的自适应采样法-CSDN博客

本文链接：https://blog.csdn.net/qq_35356741/article/details/115657399

本文介绍了如何在SGD优化中利用side information（辅助信息）设计自适应采样策略，通过结合样本的梯度和属性值，计算采样概率，从而改善模型训练效率。关键步骤包括利用sideinfo划分数据集、计算选样概率、并据此调整梯度更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SGD中的自适应采样法

SGD是一种广泛使用的优化算法，在其优化过程中，更新规则如下：

d^t=\nabla f(i^t,\theta^{t-1}), \theta^t=\theta^{t-1} -\gamma ^t d^t \space \space （1）

其中，

d^t

为输入样本

i^t

时，性能函数

f

对参数

\theta^{t-1}

的导数，即梯度。
在SGD更新过程中，需要随机选择一个样本

i^t

计算梯度。自然，很容易产生这样的一个问题，相对于随机选择，有没有一种更为科学或者更为优秀的选择方法呢？今天，我们介绍一种基于side information(辅助信息)的自适应选择方法。
首先解释一下side information的概念，side information可以理解为样本的某些属性值，比如分类苹果与梨，我们的side information可以是颜色，可以是形状，也可以是口感等等一系列与样本相关的属性。
接下来，介绍一种基于side information与梯度相结合的自适应采样方法，首先定义

C_k

为样本集中side information等于k的实例集合，SGD最小化经验风险可以写为：

$\sum_{k \in C} \sum_{i \in C_k} P(i)f(i;\theta) \space \space (2)$

式中， $P(i)=p_k \frac{1}{|C_k|}, p_k=\frac{|C_k|}{N}$ 。 $P (i)$ 的计算包含两个步骤：1）计算采样一个 $C_k$ 的概率；2）计算从 $C_k$ 中采样一个实例的概率 $p_k$ 。
对于单个实例，（2）式对参数 $\theta$ 求导为：

$d^t=\frac{1}{N}\frac{1}{P(i)}\nabla f(i;\theta) \space \space (3)$

由上式可知，梯度 $d^t$ 的计算与采样一个实例的概率 $P (i)$ 相关，而 $P (i)$ 与采样一个 $C_k$ 的概率的相关。因此，可以得出一个疑问，能否通过设置概率 $p_k$ 来调整SGD的优化过程呢？答案是当然可以。
现在，建立这样一个模型：
$min_{p_1,p_2,...,p_k} V(d^t)=E[d^{tT}d^t]-E[d^t]^TE[d^t] \space \space (4)$
该式中，第二项与 $p_k$ 没有关系，可以忽略。最后，可以发现 $p_k$ 其实仅与 $E[d^{tT}d^t]$ 相关，即最小化梯度方差与每一个 $C_k$ 中样本梯度的和的均值相关。将梯度 $d^t$ 带入（4）式可以发现：
$p_k \propto \frac{|C_k|}{N}\sqrt{\frac{1}{|C_k|}\sum_{i \in C_k}\|\nabla f(i;\theta^{t-1})\|^2} \space \space (5)$
即，采样 $C_k$ 的概率其实与 $C_k$ 中样本的梯度大小相关。
因此在SGD中利用side information自适应采样步骤可以总结如下：
1）. 确定数据集的side information，利用side information将数据集划分成k组;
2）. 根据公式5计算每个组对应的选择概率 $p_k$ ;
3）. 根据 $p_k$ 计算采样单个实例的概率 $P (i)$ ;
4）. $P (i)$ 带入公式（3）计算梯度 $d^t$ ；
5）. 利用公式（1）更新模型参数 $\theta$ ；
参考文献：[1] Siddharth Gopal,Adaptive Sampling for SGD by Exploiting Side Information,ICML,2016.