CNN-RNN: A Unified Framework for Multi-label ImageClassification

最新推荐文章于 2023-04-11 18:48:12 发布

hinanmu

最新推荐文章于 2023-04-11 18:48:12 发布

阅读量2.6k

点赞数 4

14 篇文章 4 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

本文介绍了一种结合卷积神经网络(CNN)和递归神经网络(RNN)的统一框架，用于解决多标签图像分类问题。该框架能够学习图像标签嵌入，表征语义标签依赖性和图像标签相关性，实现端到端训练。通过RNN指导CNN关注图像的不同区域，提高小对象的识别率。

摘要由CSDN通过智能技术生成

在本文中，我们利用递归神经网络（RNN）来解决标签依赖性。提出的CNN-RNN框架学习联合图像标签嵌入来表征语义标签依赖性以及图像标签相关性，并且可以端对端地训练。

传统方法

CNN
为了避免过度拟合等问题，以前的方法通常假设所有分类器共享相同的图像特征，当使用相同的图像特征来预测多个标签时，图像中较小的对象很容易被忽略或难以独立识别

通过将RNN与CNN结合，其背后的想法是隐含地调整图像中的注意区域，以便CNN在预测不同标签时可以将注意力集中在图像的不同区域上。

详细介绍请看Google
在这里插入图片描述

在这里插入图片描述
作者得思路就是，靠卷积网络来提取图片得特征，而靠LSTM网络对CNN进行一个目标导向，输入一张图片给CNN，它所看到的视觉是没有目标的，但是如果我们使用LSTM对其进行导向，或许CNN会对LSTM的导向所影响。

对于一个图片的标签k是 $e_k = [0,0,...0,1,0,0,0]$ ，乘以一个向量进行降维（不懂）
$\cdot e _ { k } }$

对降维后的数据过一个RNN，得到输出
$\left( r ( t - 1 ) , w _ { k } ( t ) \right) , r ( t ) = h _ { r } \left( r ( t - 1 ) , w _ { k } ( t ) \right)$

对RNN输出和CNN输出进行结合
$\left( U _ { o } ^ { x } o ( t ) + U _ { I } ^ { x } I \right)$

因为之前是经过降维的，现在要对输出x_t做相反操作
$s ( t ) = U _ { l } ^ { T } x _ { t }$

然后在预测具体的最后一层用个softmax normalization 处理下得到每个标签的概率

现在有一个问题是在训练阶段标签要按什么样的顺序输入（因为一次输入是一个一个标签输入），作者提出按照每个标签的先验概率排序进行输入，这种策略会有很好的性能。但是如果我们随机的输入标签顺序，这个网路很难收敛。

在预测阶段，如果使用贪婪算法：预测了前n个标签，再预测第n+1个。这就会有问题，假如我们第一个预测就错了，之后的都错了。这里使用束搜索。

束搜索先选择束的大小N，挑选出先验概率前N个标签，对于每个标签，输入到RNN中，选出概率最大的N个标签，继续递归，找到概率最大的2个标签，对于一次递归，一共有N*N个路径，选出概率最大的N条路径中第二列N个节点下一次迭代，一种重复N次迭代。

对于每一次递归何时停止呢，如果下一个搜索的概率低于当前所有的路径时，我们就停止，在搜索到第三层时，其概率已经低于当前所有可能搜索路径，我们停止。

关注

专栏目录