在做视觉分类问题的过程中有个问题一直困扰着我:
1.CE和BCE 分别是针对何种分类任务?
2.在做具体的任务时如何区别的使用他们?
3.分类标签对于不同的多分类任务,是选择普通标签还是one-hot标签?这和loss选择有关么?
损失函数公式定义区别
由于softmax输出的概率值和为1,网络的优化方向是提升对 y=1 的分类能力,自然其它类别的预测得分就会下降,因此不必担心假阳性的预测得不到改善。
类别间是否互斥问题
在分类问题中,如果遇到类别间不互斥的情况,只能采用“sigmoid+BCE”;
如果遇到类别间互斥的情况(只能有一类胜出),“sigmoid+BCE”化为多个二分类问题与“softmax+CE”直接进行分类都是有被用到的方法。
分类问题的loss使用
经过阅读文章发现,一般二分类多使用 BCE loss,无论是普通标签还是one-hot编码后的标签。
多分类问题又分为但标签多分类和多标签多分类,一般多标签多分类的标签是one-hot形式,使用CE loss。