1. 有放回均匀采样(SGD uniform),样本采样概率为:
(1)
式中,|D|为数据集大小。为采样第i个样本的概率。
2. 不放回采样(SGD scan)
(2)
式中,为已采样的样本集,
为指示函数,即所采样样本在
中时,采样概率为0.
3. SGD SD(Sampled by Difficulty):
(3)
式中,为样本
预测为
的历史预测概率集合,
为
预测为
的历史预测概率集合的均值。
为光滑系数。直觉上来说,对于学习模型学习困难的样本,其预测概率低,容易学习的样本,其预测概率高,因此,对于式(3),学习困难的样本的历史预测集合均值高,学习容易的样本实例其历史预测集合的均值低。故,对于式(3)而言,困难样本的采样概率高,简单样本的采样概率低。
4. SGD WD(weighted by Difficulty),该策略为对loss函数加权操作。其计算分为两步:
(4)
式中为样本
在loss计算过程中的权重系数。在式(4)中,困难样本会获得较大的权值,简单样本会获得较小的权值。对于某种学习模型(如神经网络)而言,模型会更多地关注困难样本。
5. SGD ISD(Importance-Sampled by Difficulty):对于SGD WD,若数据中存在异常值,模型可能会一直关注到异常,从而导致模型退化。因此,另一种可以容忍异常的加权方式如下:
(5)
对于该式而言,困难样本会获得较小的权值,简单样本会获得较大的权值。模型对简单样本关注更多(式4与式5是两种相反的观点,视具体情况选择)。
6. SGD SPV(Sampled by Prediction Variance)
(6)
式中,为样本点
预测为
历史预测概率集合的标准差。
与(3)中类似,为光滑系数。该式中采样概率衡量的是样本的不确定程度。即通过衡量历史数据中样本的预测概率波动来判断该样本的不确定程度(衡量数据波动情况可以用方差,标准差为方差开方),该式给不确定的样本更多的关注。
7. SGD TC(Threshold Closeness):模型是应该更多地关注困难样本还是简单样本呢?可以采样如下权衡策略:
(7)
该式在关注困难样本与简单样本之间做了一个衡量,类似于贪心策略(具体可参考k臂赌博机的介绍),
关注简单样本,
关注困难样本。
参考文献:Haw-Shiuan Chang et al., Active Bias: Training More Accurate Neural Networks by Emphasizing High Variance Samples, NIPS, 2017.