这是一篇发表在CVPR2020上关于Zero-shot Learning的文章。
论文的进步
①本文主要针对 fine-grained 分类
②基于attribute的dense attention,为每个attribute定位最准确的图像区域,生成 attribute feature
③使用第a个 attribute中的words的平均 GloVe representations(GloVe model trained on Wikipedia articles.)获取 attribute semantic vector;对齐 attribute feature和 attribute semantic vector,得到一个vector of attribute scores;而不是直接对齐 class semantic vector和 global features;以捕捉更加细节的信息。
④特别的,用一个attention调整attribute scores以更好捕捉各个attribute的discriminative power,使得本模型能处理好classes that are different in only a few attributes
总体框架图
具体模型
①将一张 input图像分成 R个 regions ,分别抽取特征得到 region features