SGD中的自适应采样法总结

最新推荐文章于 2024-08-07 21:54:51 发布

智能黄大仙

最新推荐文章于 2024-08-07 21:54:51 发布

阅读量1.5k

点赞数 1

分类专栏：神经网络理论与应用-实践篇算法

本文链接：https://blog.csdn.net/qq_35356741/article/details/117293517

版权

算法同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

神经网络理论与应用-实践篇

4 篇文章 0 订阅

订阅专栏

本文介绍了几种深度学习优化策略，包括有放回和不放回采样，以及基于样本难度的加权方法。SGDuniform、SGDscan关注采样概率，SGDSD和SGDWD根据样本预测难度调整采样权重，SGDISD则对异常值容忍。SGDSPV利用预测概率的方差来关注样本不确定性，而SGDTC则在关注困难和简单样本间寻找平衡。这些策略有助于提高神经网络训练的准确性和效率。

摘要由CSDN通过智能技术生成

1. 有放回均匀采样（SGD uniform）,样本采样概率为：

$P_s(i|D))=\frac{1}{|D|}$ (1)

式中，|D|为数据集大小。 $P_s(i|D)$ 为采样第i个样本的概率。

2. 不放回采样（SGD scan）

$P_s(i|S_e,D)=\frac{1}{|D|-|S_e|}\mathbf{1}_{i \notin S_e}$ (2)

式中， $S_e$ 为已采样的样本集， $\mathbf{1}$ 为指示函数，即所采样样本在 $S_e$ 中时，采样概率为0.

3. SGD SD(Sampled by Difficulty):

$P_s(i|H,S_e,D) \propto 1- \bar{P}_{H^{t-1}_i}(y_i|x_i)+\epsilon_D$ (3)

式中， $H_i^{t-1}$ 为样本 $x_i$ 预测为 $y_i$ 的历史预测概率集合， $\bar{P}_{H_i^{t-1}}(y_i|x_i)$ 为 $x_i$ 预测为 $y_i$ 的历史预测概率集合的均值。 $\epsilon_D$ 为光滑系数。直觉上来说，对于学习模型学习困难的样本，其预测概率低，容易学习的样本，其预测概率高，因此，对于式（3），学习困难的样本的历史预测集合均值高，学习容易的样本实例其历史预测集合的均值低。故，对于式（3）而言，困难样本的采样概率高，简单样本的采样概率低。

4. SGD WD（weighted by Difficulty），该策略为对loss函数加权操作。其计算分为两步：

$v_i=\frac{1}{N_D}(1-\bar{P}_{H_i^{t-1}}(y_i|x_i)+\epsilon_D),\\ L=\sum_i v_i loss_i(W)\\$ (4)

式中 $v_i$ 为样本 $x_i$ 在loss计算过程中的权重系数。在式（4）中，困难样本会获得较大的权值，简单样本会获得较小的权值。对于某种学习模型（如神经网络）而言，模型会更多地关注困难样本。

5. SGD ISD（Importance-Sampled by Difficulty）：对于SGD WD，若数据中存在异常值，模型可能会一直关注到异常，从而导致模型退化。因此，另一种可以容忍异常的加权方式如下：

$v_i=N_D(1-\bar{P}_{H_i^{t-1}}(y_i|x_i)+\epsilon_D)^{-1}$ (5)

对于该式而言，困难样本会获得较小的权值，简单样本会获得较大的权值。模型对简单样本关注更多（式4与式5是两种相反的观点，视具体情况选择）。

6. SGD SPV(Sampled by Prediction Variance)

$P_s(i|H,S_e,D) \propto std_i^{conf}(H)+\epsilon_V$ (6)

式中， $std_i^{conf}(H)$ 为样本点 $x_i$ 预测为 $y_i$ 历史预测概率集合的标准差。 $\epsilon_V$ 与（3）中类似，为光滑系数。该式中采样概率衡量的是样本的不确定程度。即通过衡量历史数据中样本的预测概率波动来判断该样本的不确定程度（衡量数据波动情况可以用方差，标准差为方差开方），该式给不确定的样本更多的关注。