Adaptive Logit Adjustment Loss
与Logit Adjustment Loss的不同之处:
-
现有方法主要从数据量的角度来解决这个问题,即每个类别中的样本数量。具体而言,它们更关注尾部类别,例如对logit应用较大的调整。然而,在训练过程中,数据的数量和难度是两个相互交织且同等重要的问题。对于某些尾部类别,它们实例的特征明显且有区分度,这也可以带来令人满意的准确率;对于某些头部类别,尽管样本足够,但与其他类别的高语义相似性和缺乏有区分度的特征将带来较差的准确率。因此,只考虑样本数量显然是不够充分的。
-
自适应调整项A由两个因子组成:1)难度因子DF(difficulty factor),在训练过程中自适应地关注较难的实例。难度因素可以缓解对尾部但容易实例的过度优化和对头部但困难实例的欠优化;2)数量因子QF(quantity factor),更关注尾部类别。
具体地
-
**对于难度因子的设计:**由于困难实例是预测结果较差的实例,设计原则是DF应该与目标预测负相关。预测的logit和概率都可以用作衡量难度的信号。我们凭经验发现logit表现更好,原因是softmax后得到的预测概率相对于相应的logit更加尖锐,这将导致过大或过小的调整项。然而,由于logit的值范围未知,很难设计DF的具体形式。因此,我们按照LDAM通过权重归一化和特征归一化来限制fθ(x)在[−1, 1]之间。举例来说,下面式子中xi是数据集中的第i个样本,属于第j类,Wj表示特征空间中第j类样本的中心,θij表示xi和Wj之间的夹角,fθ(xi)表示模型预测的logit,经过权重归一化和特征归一化后的fθ(x)表示如下:
对于简单(容易分类)的样本,θij趋于小,并且cosθij 趋于大,整体的DF趋于小;反之,困难的样本的DF趋于大。
得益于难度因子DF,计算损失时,硬样本得到了比容易样本更大的权重。
-
对于数量因子的设计:设计原则与之前的logit调整损失类似:QF应该与数据数量负相关。然而,与其他方法(Cao等人,2019;Menon等人,2020)中使用的常见幂函数(1/x^n)不同,我们凭经验发现对数函数(1/ log(x + 1))是一个更好的选择。举例来说:
至于为什么选用对数函数而不是幂函数,作者给出了实验结果:
图注:为了进一步证明QF的新函数形式是必要的,我们直观地在图2中展示了我们的QF与LDAM的比较。可以清楚地看到,QF为尾部类别分配较大的调整项,从而提高它们的性能。
- 自适应调整项A表示为: