Multi-label Image Classification with Regional Latent Semantic Dependencies(RLSD)的文章理解

 在这篇文章之前提到了Multi-CNN和CNN+LSTM,MCG-CNN+LSTM三种模型来对多标签图像分类,同时对于目标检测算法提到Selective Search,Objectness,BING,MCG。而本文的RLSD为了处理的任务如下两张图,想要获得更多的小物体的信息。

 对于本文采取的是一下架构,模型包括一个全卷积定位架构,用于定位可能包含多个高度依赖标签的区域。局部区域被进一步发送到递归神经网络(RNN),以表征区域级别的潜在语义依赖。

具体图如下,具体方法:首先通过CNN对输入图像进行处理,提取卷积特征,再将其发送到类似rpn的定位层。与目标检测框架中的传统RPN(如更快的R-CNN[14])试图预测包含单个对象的提案不同,定位层旨在定位图像中可能包含多个语义相关标签的区域。这些区域用全连接的神经网络编码,并进一步发送到RNN, RNN在区域级别捕获潜在的语义依赖。基于定位层的输出和之前循环神经元的输出,RNN单元依次输出一个多类预测。最后,进行maxpooling操作,融合所有区域输出作为最终预测。

上面说到RPN(Regional Proposal Network),具体来说就是输入是一张图像,输出是一系列候选框(bounding boxes),每个候选框都表示可能包含目标的区域。RPN使用卷积神经网络对图像进行特征提取,然后对每个特征点生成一组候选框。这些候选框通过与图像中的真实目标框进行比较,进行分类和回归,从而得到最终的目标检测结果。

对于上图进行一个详细的解释:首先,对于图片使用VGG19实现特征提取,再将卷积特征传送到红色部分,也就是Fully Convolutional Localization Layer,在这个部分卷积特征图中的每个点被投影回原始图像(H × W),并进一步作为中心生成k个不同纵横比的锚盒。每个锚盒被发送到一个全卷积网络中,以产生预测的盒标量和置信度分数。全卷积网络由256个3 × 3核大小的卷积滤波器、一个ReLU层和一个(4 + 1)× k个滤波器的最终卷积层组成,其中4表示盒标量的个数,1表示置信度分数。在此文章中设置k = 12。对于从锚点到区域建议的边界盒回归,

参考“Faster r-cnn: Towards real-time object detection with region proposal networks进行参数化。我们在锚盒上应用对数空间缩放变换,这意味着给定锚盒的参数(ax,ay,aw,ah),其中(ax,ay)是锚盒的中心,aw,ah分别代表锚盒的宽度和高度,我们通过以下步骤生成区域坐标b = (bx,by,bw,bh):具体的公式如下:

tx,ty,tw,th这些标量是通过模型预测的,然后ground-truth的损失函数如下

 由平滑项L1来进行限定。

 这就已经得到了建议区域,但将所有建议区域全部发送给LSTM会导致数据多而LSTM处理费劲,因此这里采用采样机制对生成的区域建议进行子采样。为了保证区域建议特征能够被全连通层接受,并且梯度能够反向传播到输入特征和框坐标,我们使用双线性插值来代替[14]中的ROI池化层。我们参考[33]中的双线性采样操作,得到M × C × X × Y个特征图,其中C = 512为VGGNet卷积特征图大小,X, Y为双线性采样网格大小。

在这里提到的双线性插值,ROI池化层

1.双线性插值:,用于在离散的像素网格上计算连续的像素值。它通过计算周围像素的加权平均值来估计像素值,从而实现图像的缩放和旋转等变换操作。值通常用于对特征图进行上采样操作,以便于后续的处理操作。

2.ROI池化层:ROI池化层将每个候选框划分为固定大小的子区域,并对每个子区域进行最大池化操作,从而得到固定大小的特征图

第三步将每个提议区域被编码为一个4096维的特征向量,将其发送到一个全连通网络,该网络由两个4096-d全连通层组成,通过dropout进行正则化。每个区域的特征被平展成一个向量,并通过这个全连接的网络。

模型生成的边界框通常更大,其中一些包含多个对象,为了显示定位层的有效性,设置了一个基线模型,该模型使用MCG[45]来取代我们的多标签区域定位层以进一步进行多标签分类。

MCG:MCG方法利用多尺度的图像分割和组合技术,从而可以生成具有不同大小和形状的目标区域。具体来说,它首先在图像中生成一系列不同尺度和粒度的超像素,然后将这些超像素组合成候选目标区域。在组合过程中,MCG使用了一种基于区域相似性的图割算法,以最大化候选目标区域内部的相似性,并最小化与其他区域之间的差异。

随后到达LSTM层对于输入的特征,再就Max-pooling and Loss Function

 

 

随后评价指标精度和召回率,mAP 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值