《Deep learning uncertainty and confidence calibration for the five-class
polyp classification from colonoscopy》
目录
针对的问题
置信度校准和分类不确定性都被认为有助于解释深度学习模型产生的分类结果,但尚不清楚它们对分类准确性和校准的影响有多大,以及它们如何相互作用。医生可以通过该矩阵,绿色代表比较可靠的结果。
方法
一:置信度校准
采用温度缩放,校准预测概率值。
二:两种不确定性估计方法
1.基于概率熵
2.基于预测方差
三:实验设置
1. 设置了三个参数t1,t2,t3,分别为置信度校准后的概率值,分类熵,预测方差提供一个阈值,来判断是否应该接受预测结果。使用在测试集Z上预测结果的百分比作为学习预测概率,分类熵,预测出方差的参数(不太理解,可能是通过测试集)
其中Z代表测试集,V代表验证集。
基于两个条件判断是否接受预测。
2. 网络架构:基于Resnet-101,贝叶斯网络是删掉最后1000个节点的层,然后添加第一层Relu激活的5个节点,第二层10个节点(前5个softmax激活,作为预测概率;后5个节点是不确定性值),使用了5折交叉验证。
3.评估方式:classification accuracy ,average precision.第一个只是考虑分类正确的样本数,第二个是考虑了五个类别,但是进行了平均,所以就忽略了类不平衡的问题。
细节
1.由于贝叶斯方法是使用分布Q去拟合真实分布P的,Q的参数是权重的平均值和dropout的概率,这两个参数仅针对最后两个添加的层进行学习。
2.为了训练置信度校准,单独对后两层进行了100次训练,用验证集来估计温度参数。
实验结果
这是将预测熵作为不确定性值的模型结果, 第四行可以看到绿色的是被预测正确的样本,在预测熵较低,即不确定性较低时,大部分是预测正确的。
1.温度缩放不会改变模型精度,但会得到减小ECE和MCE。
2.基于高分类不确定性和低分类置信度拒绝测试样本提高了贝叶斯方法的分类精度和平均精度。