前面
本文主要做两件事情:
1.交叉熵原理
2.引出focal loss原理
其中,交叉熵这里:https://blog.csdn.net/tsyccnh/article/details/79163834
这篇博文写的很详细,很明白,但博士没有总结,我在这里按自己理解重新总结了下,看不太明白的读者建议直接看原文会明白很多。focal的几篇参考:
论文链接:https://arxiv.org/abs/1708.02002
https://blog.csdn.net/u014380165/article/details/77019084
https://blog.csdn.net/dreamer_on_air/article/details/78187565
以下是个人对交叉熵-focal loss的理解汇总,欢迎指正。
一、cross entropy
1 信息量
信息论中有:当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。
注意文中的对数函数的底均为自然数e
2 熵
考虑另一个问题,对于某个事件,有种可能性,每一种可能性都有一个概率
我们现在有了信息量的定义,而熵用来表示所有信息量的期望,即:
不管单类还是多类图像分类以及目标识别问题,均可以看做0-1分布问题(二项分布的特例),对于这类问题,熵的计算方法可以简化为如下算式: