SGD中的自适应采样法总结

本文介绍了几种深度学习优化策略,包括有放回和不放回采样,以及基于样本难度的加权方法。SGDuniform、SGDscan关注采样概率,SGDSD和SGDWD根据样本预测难度调整采样权重,SGDISD则对异常值容忍。SGDSPV利用预测概率的方差来关注样本不确定性,而SGDTC则在关注困难和简单样本间寻找平衡。这些策略有助于提高神经网络训练的准确性和效率。
摘要由CSDN通过智能技术生成

1. 有放回均匀采样(SGD uniform),样本采样概率为:

                              P_s(i|D))=\frac{1}{|D|}                                                                   (1)

式中,|D|为数据集大小。P_s(i|D)为采样第i个样本的概率。

2. 不放回采样(SGD scan)

                              P_s(i|S_e,D)=\frac{1}{|D|-|S_e|}\mathbf{1}_{i \notin S_e}                                            (2)

式中,S_e为已采样的样本集,\mathbf{1}为指示函数,即所采样样本在S_e中时,采样概率为0.

3. SGD SD(Sampled by Difficulty):

                               P_s(i|H,S_e,D) \propto 1- \bar{P}_{H^{t-1}_i}(y_i|x_i)+\epsilon_D                           (3)

式中,H_i^{t-1}为样本x_i预测为y_i的历史预测概率集合,\bar{P}_{H_i^{t-1}}(y_i|x_i)x_i预测为y_i的历史预测概率集合的均值。\epsilon_D为光滑系数。直觉上来说,对于学习模型学习困难的样本,其预测概率低,容易学习的样本,其预测概率高,因此,对于式(3),学习困难的样本的历史预测集合均值高,学习容易的样本实例其历史预测集合的均值低。故,对于式(3)而言,困难样本的采样概率高,简单样本的采样概率低。

4. SGD WD(weighted by Difficulty),该策略为对loss函数加权操作。其计算分为两步:

                             v_i=\frac{1}{N_D}(1-\bar{P}_{H_i^{t-1}}(y_i|x_i)+\epsilon_D),\\ L=\sum_i v_i loss_i(W)\\                                 (4)

式中v_i为样本x_i在loss计算过程中的权重系数。在式(4)中,困难样本会获得较大的权值,简单样本会获得较小的权值。对于某种学习模型(如神经网络)而言,模型会更多地关注困难样本。

5. SGD ISD(Importance-Sampled by Difficulty):对于SGD WD,若数据中存在异常值,模型可能会一直关注到异常,从而导致模型退化。因此,另一种可以容忍异常的加权方式如下:

                               v_i=N_D(1-\bar{P}_{H_i^{t-1}}(y_i|x_i)+\epsilon_D)^{-1}                                    (5)

对于该式而言,困难样本会获得较小的权值,简单样本会获得较大的权值。模型对简单样本关注更多(式4与式5是两种相反的观点,视具体情况选择)。

6. SGD SPV(Sampled by Prediction Variance)

                          P_s(i|H,S_e,D) \propto std_i^{conf}(H)+\epsilon_V                                          (6)

式中,std_i^{conf}(H)为样本点x_i预测为y_i历史预测概率集合的标准差。\epsilon_V与(3)中类似,为光滑系数。该式中采样概率衡量的是样本的不确定程度。即通过衡量历史数据中样本的预测概率波动来判断该样本的不确定程度(衡量数据波动情况可以用方差,标准差为方差开方),该式给不确定的样本更多的关注。

7. SGD TC(Threshold Closeness):模型是应该更多地关注困难样本还是简单样本呢?可以采样如下权衡策略:

                        P_s(i|H,S_e,D) \propto \bar{P}_{H_i^{t-1}}(y_i|x_i)(1-\bar{P}_{H_i^{t-1}}(y_i|x_i)+\epsilon_T           (7)

该式在关注困难样本与简单样本之间做了一个衡量,类似于\epsilon贪心策略(具体可参考k臂赌博机的介绍),\bar{P}_{H_i^{t-1}}(y_i|x_i)关注简单样本,(1-\bar{P}_{H_i^{t-1}}(y_i|x_i)关注困难样本。

参考文献:Haw-Shiuan Chang et al., Active Bias: Training More Accurate Neural Networks by Emphasizing High Variance Samples, NIPS, 2017.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智能黄大仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值