动机:现有的方法要么采用计算机视觉方法,但没有考虑到类的不平衡,要么探索机器学习解决方案,而忽略了图像中存在的空间和语义关系。
contributions:
1.the design and analysis of an end-to-end neural-network architecture that can be easily reproduced, is easy to trainand achieves state-of-the-art visual attribute classification results.
2.Multi-scale Visual Attention and Aggregation
3.establish a loss function for imbalanced attributes as well as hard or uncertain samples.
方法主要包括:
1.一个用于特征提取的预训练网络
2.针对属性特定信息的多尺度弱监督视觉注意机制
3.处理类不平衡、重点关注硬样本和不确定样本的损失函数。
结构:
这个分支的作用是根据标签的置信度为attention maps分配权重,避免在标签不存在时从attention masks中学习。
propose the weighted focal loss function to measure the difference between predicted attribute vectors and ground truth:
同时用:
来计算对每个样本s进行属性级监督的注意图的损失
因此,用于训练该网络端到端的总损失是主网络和两个注意力模块的损失之和,即
实验:
在WIDER-Attribute和PETA数据集上,结果如下图
在两个数据集上做了两个消融实验,其中WIDER结果如下: