Focal Loss for Dense Object Detection
首先,需要了解交叉熵是怎么工作的: https://blog.csdn.net/tsyccnh/article/details/79163834
本文的核心公式如下:
借用上面博客中的概率表:
* | 猫 | 青蛙 | 老鼠 |
---|---|---|---|
Label | 0 | 1 | 0 |
Pred | 0.3 | 0.6 | 0.1 |
本文将该论文应用在多分类任务中的类别不平衡问题上.
其中alpha是控制类别不平衡问题的超参数,每个类别对应相应的alpha值,样本多的对应的alpha小,样本少的对应alpha大.
gamma是控制难易样本的超参数,当这个是难样本时,预测的pt会很低,(1-pt)值就会变高,使得这个损失加大,反之,样本为简单样本时,pt会很大,而(1-pt)会很小,使得这个损失变得更小.这样就能使得模型更加关注与难样本.由于类别不平衡时,少量样本的类别预测结果更差,因此也能获得更多的关注.这样也能起到控制类别不平衡的效果.
例如上面计算结果为-0.4log(0.6)*alpha.
当青蛙的样本为难样本时,假设预测概率为0.2.
则计算结果就为-0.8*log(0.2)*alpha
很明显结果比普通的交叉熵大.
该篇论文推荐的alpha为0.25, gamma为2
代码如下,input为预测结果,如果不是softmax的预测结果则使用第二个,否则使用第一行代码.
target为标签
logpt = torch.log(input)
#logpt = F.log_softmax(input)
#pt = nn.Softmax()(input) # N*H*W,C
pt = pt.gather(1, target).view(-1)
logpt = logpt.gather(1, target)
logpt = logpt * alpha
loss = -1 * (1 - pt)**self.gamma * logpt