Suppressing Mislabeled Data via Grouping and Self-Attention
ECCV2020
这篇论文与Semi-supervised Domain Adaptation based on Dual-level Domain Mixing for Semantic Segmentation 有异曲同工的地方,前者在特征层进行Mixup,后者在样本(图片)和样本集上进行Mixup;前者用于抑制坏Label,后者用于半监督域适应。
本文主要使用注意力机制解决数据集中标签质量不高、错标签的问题。
本文将一个Batch的图片(有好有坏),按每组K个图片随机分组,经过CNN后提取Feature Map,设置K个FC,K个图片的FM对应通过K个FC,得到的K个输出进行Interaction操作,然后通过两层FC、一层ReLU和Sigmoid,得到K个图片的各自的注意力值;FM和原始label结合注意力值,生成新的FM与label,最后就可以算loss了。
Group-to-Attend Module
组内注意力机制
1.在数据集的一个Batch中选择K=2张图片为一组(实验部分表明K=2效果最好),经过CNN提取特征Xi,实验中使用Resnet50的ImageNet预训练模型。
2. 设置两个FC,FCa与FCb,两个X对应经过FC后进行Interaction操作(可选拼接、求和、元素对应相乘)
3. 通过两层FC,一层ReLU,一层Sigmoid,得到[ai,aj]两个注意力值。一个Batch中共有m组,即有m对这样的值。
Mixup Module
混合模块
每组有两个从CNN提取的特征x,对应乘上注意力值,除以总注意力值(实验室总注意力值为1)得到新的特征x,同理求得新的Label分布。
整体流程图:
Training
损失函数形式如下,一个batch有n张图分成m组,所以有m个新的x与y需要算loss,n个原来的x与y算loss。
The effect of Group-to-Attend Module部分未想明白,待补充。。。