CNN-RNN: A Unified Framework for Multi-label Image Classification(CVPR 2016)

最新推荐文章于 2020-12-03 17:25:10 发布

zcx_language

最新推荐文章于 2020-12-03 17:25:10 发布

阅读量957

点赞数 1

分类专栏： Paper Notes 文章标签： multi-label CNN-RNN classification

本文链接：https://blog.csdn.net/language_zcx/article/details/106749981

版权

Paper Notes 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

CNN-RNN: A Unified Framework for Multi-label Image Classification
Paper PDF

Introduction

随着大规模数据集的出现和深度神经网络的进步，图像分类的精度越来越高。但通常一副图像往往含有多种元素，包括对象，部分，场景，动作等等。对图像中丰富的语义信息及其依赖关系进行建模是图像理解的基础。传统的图像分类任中，每一张图片只有一个标签，而在多标签分类任务中一张图像往往具有若干个与之相关的标签。这种任务显然能够让计算机进一步理解图像内容。
在以往的多标签分类的解决办法中，一类常见的解决方法是讲多标签分类任务转化为单标签分类，如利用利用rank-loss或者cross-entropy loss训练的神经网络。这些方法往往没有考虑不同标签之间的依赖关系。当然现在也存在基于图模型的办法来对标签之间的关系进行建模，如利用马尔科夫随机场或共现概率等方法来推断标签对的联合概率。但这类方法仅仅考虑了标签之间的low-level关系，在面对标签数量增多的情况下，往往会导致计算量巨大。甚至在存在相似标签，如“cat" 和”kitten“的时候，就会导致大量的冗余信息。
本文提出了一种用于多标签图像分类的统一的CNN-RNN框架，该框架以端到端方式有效地学习了语义冗余和依赖关系。为了获取标签之间的high-level关系，本文利用LSTM显式地建模label的语义信息以及依赖关系，同时这种RNNs框架利用前一阶段的预测标签来动态调整输入图像的提取特征，这使得在预测不同标签时，网络能够注意不同的图像区域。在标签存在的冗余语义问题上，论文提出构建图像-标签的联合embedding。这种embedding将每一个标签或图像向低维欧几里得空间进行映射，以使语义相似标签彼此接近，并且每个图像的应与其关联的标签接近。
在这里插入图片描述

Innovation

joint image/label embedding
利用RNN学习在joint image/label embedding 空间下不同标签间的co-occurrence dependency。

Method

Model

在这里插入图片描述
模型通过CNN来提取图像的特征，标签则映射到相同的低维空间。如下式：
$w_k = U_l \cdot e_k \tag{1}$
其中， $e_k$ 表示k-th标签的one-hot向量， $U_l$ 则表示标签映射矩阵(label embedding matrix)，其中k-th行表示k-th标签的embedding 。(我觉得论文中表述有问题，应该是 $e_k \cdot U_l$ ，得到一个(1 * n)的k-th标签的embedding)

将上一预测的标签embedding输入LSTM，通过其内部的非线性函数以及其隐藏递归状态对标签的共现依赖关系进行建模。
$h_r (r(t-1), w_k(t)) \\ o(t) = h_o(r(t-1), w_k(t)) \tag{2}$
其中， $r (t)$ 和 $o (t)$ 分别表示t时刻的隐藏状态以及输出。 $w_k(t)$ 是预测路径中第t个标签的embedding。