Multi-label Image Classification with Regional Latent Semantic Dependencies（RLSD）的文章理解

最新推荐文章于 2024-07-19 16:50:04 发布

pursuing1

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量201

点赞数 1

文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/pursuing1/article/details/130542488

版权

在这篇文章之前提到了Multi-CNN和CNN+LSTM，MCG-CNN+LSTM三种模型来对多标签图像分类，同时对于目标检测算法提到Selective Search,Objectness,BING,MCG。而本文的RLSD为了处理的任务如下两张图，想要获得更多的小物体的信息。

对于本文采取的是一下架构，模型包括一个全卷积定位架构，用于定位可能包含多个高度依赖标签的区域。局部区域被进一步发送到递归神经网络(RNN)，以表征区域级别的潜在语义依赖。

具体图如下，具体方法：首先通过CNN对输入图像进行处理，提取卷积特征，再将其发送到类似rpn的定位层。与目标检测框架中的传统RPN(如更快的R-CNN[14])试图预测包含单个对象的提案不同，定位层旨在定位图像中可能包含多个语义相关标签的区域。这些区域用全连接的神经网络编码，并进一步发送到RNN, RNN在区域级别捕获潜在的语义依赖。基于定位层的输出和之前循环神经元的输出，RNN单元依次输出一个多类预测。最后，进行maxpooling操作，融合所有区域输出作为最终预测。

上面说到RPN(Regional Proposal Network)，具体来说就是输入是一张图像，输出是一系列候选框（bounding boxes），每个候选框都表示可能包含目标的区域。RPN使用卷积神经网络对图像进行特征提取，然后对每个特征点生成一组候选框。这些候选框通过与图像中的真实目标框进行比较，进行分类和回归，从而得到最终的目标检测结果。

对于上图进行一个详细的解释：首先，对于图片使用VGG19实现特征提取，再将卷积特征传送到红色部分，也就是Fully Convolutional Localization Layer，在这个部分卷积特征图中的每个点被投影回原始图像(H × W)，并进一步作为中心生成k个不同纵横比的锚盒。每个锚盒被发送到一个全卷积网络中，以产生预测的盒标量和置信度分数。全卷积网络由256个3 × 3核大小的卷积滤波器、一个ReLU层和一个(4 + 1)× k个滤波器的最终卷积层组成，其中4表示盒标量的个数，1表示置信度分数。在此文章中设置k = 12。对于从锚点到区域建议的边界盒回归，

参考“Faster r-cnn: Towards real-time object detection with region proposal networks进行参数化。我们在锚盒上应用对数空间缩放变换，这意味着给定锚盒的参数(ax,ay,aw,ah)，其中(ax,ay)是锚盒的中心，aw,ah分别代表锚盒的宽度和高度，我们通过以下步骤生成区域坐标b = (bx,by,bw,bh):具体的公式如下：

tx,ty,tw,th这些标量是通过模型预测的，然后ground-truth的损失函数如下

由平滑项L1来进行限定。

这就已经得到了建议区域，但将所有建议区域全部发送给LSTM会导致数据多而LSTM处理费劲，因此这里采用采样机制对生成的区域建议进行子采样。为了保证区域建议特征能够被全连通层接受，并且梯度能够反向传播到输入特征和框坐标，我们使用双线性插值来代替[14]中的ROI池化层。我们参考[33]中的双线性采样操作，得到M × C × X × Y个特征图，其中C = 512为VGGNet卷积特征图大小，X, Y为双线性采样网格大小。

在这里提到的双线性插值，ROI池化层

1.双线性插值：，用于在离散的像素网格上计算连续的像素值。它通过计算周围像素的加权平均值来估计像素值，从而实现图像的缩放和旋转等变换操作。值通常用于对特征图进行上采样操作，以便于后续的处理操作。

2.ROI池化层：ROI池化层将每个候选框划分为固定大小的子区域，并对每个子区域进行最大池化操作，从而得到固定大小的特征图

第三步将每个提议区域被编码为一个4096维的特征向量，将其发送到一个全连通网络，该网络由两个4096-d全连通层组成，通过dropout进行正则化。每个区域的特征被平展成一个向量，并通过这个全连接的网络。

模型生成的边界框通常更大，其中一些包含多个对象，为了显示定位层的有效性，设置了一个基线模型，该模型使用MCG[45]来取代我们的多标签区域定位层以进一步进行多标签分类。

MCG：MCG方法利用多尺度的图像分割和组合技术，从而可以生成具有不同大小和形状的目标区域。具体来说，它首先在图像中生成一系列不同尺度和粒度的超像素，然后将这些超像素组合成候选目标区域。在组合过程中，MCG使用了一种基于区域相似性的图割算法，以最大化候选目标区域内部的相似性，并最小化与其他区域之间的差异。

随后到达LSTM层对于输入的特征，再就Max-pooling and Loss Function

随后评价指标精度和召回率，mAP

pursuing1

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Multi-label Image Classification with Regional Latent Semantic Dependencies（RLSD）的文章理解

对于上图进行一个详细的解释：首先，对于图片使用VGG19实现特征提取，再将卷积特征传送到红色部分，也就是Fully Convolutional Localization Layer，在这个部分卷积特征图中的每个点被投影回原始图像(H × W)，并进一步作为中心生成k个不同纵横比的锚盒。每个区域的特征被平展成一个向量，并通过这个全连接的网络。模型生成的边界框通常更大，其中一些包含多个对象，为了显示定位层的有效性，设置了一个基线模型，该模型使用MCG[45]来取代我们的多标签区域定位层以进一步进行多标签分类。
复制链接

扫一扫

Multi-label Image Classification with Regional Latent Semantic Dependencies（RLSD）的文章理解

“相关推荐”对你有帮助么？