今天读的是ICCV2013 的Spoken Attributes: Mixing Binary and Relative Attributes toSay the Right Thing. Attribute最近几年都比较火,而有关attribute的文章几乎都与Devi Parikh大美女有关。今天读的这篇Spoken Attribute的话就比较偏灌水和挖坑的类型。文章的大意为:人在描述东西时,有时候会用binary attribute,有时候会用relative attribute,如图1所示.对于(a),我们可能会说2比1笑得更灿烂(relative),而对于(b)来说,说谁比谁笑得更灿烂就不合适了,因为她们俩都没有在笑。另外一方面,像“戴眼镜”这样的attribute我们通常不会用relative的attribute(比如我比你更“戴眼镜”,这完全不合理逻辑),而往往会选择binary attribute。
图1
所以本篇文章要做的就是这样一个问题:什么时候我们会用relative(或binary)去描述一幅图像。当有了这个问题以后,想想如果是我们自己来解这个问题的话,那最直接的想法就是我们还是对每一个attribute训练一个分类器,用分类器的输出