阅读笔记《TBMSL-NET》

本文是关于《THREE-BRANCH AND MUTIL-SCALE LEARNING FOR FINE-GRAINED IMAGE RECOGNITION 》(细粒度图像识别的三分支多尺度学习)的阅读笔记


RECOGNITION 》(细粒度图像识别的三分支多尺度学习)的阅读笔记)

(菜鸟一枚,见解不对希望大家轻喷)
原文地址
代码地址

阅读前的三个问题

Q1:本文解决什么问题?
在不需要标注和边界框的情况下,有效定位包含目标的整体结构,包含更多细节,不同尺度的局部图像,更多的细粒度特征。
Q2:本文通过什么模型/理论/方法来解决这个问题?
1.三分支网络结构;对三种训练图像监督对不同尺度目标图像有良好的分类能力、泛化性和鲁棒性。
2.注意主体定位模块( attention object location module,AOLM)
3.注意局部建议模块(attention part proposal module ,APPM)
Q3:本文的结果
在鸟类、汽车数据和飞机数据集上取得最先进结果。(2020.3.27发表日期)

三分支多尺度学习网络结构TBMSL-Net

三分支网络结构
第一分支:输入原始图像raw_image,研究对象的整体特征,输出得到一个raw_loss。
在这里插入图片描述

第二分支:借助AOLM对一分支得到的特征图映射采用crop裁剪方式(提取目标主体放大到原图相同尺寸)作为第二分支的输入,输出等得到object_loss。
在这里插入图片描述
第三分支:通过APPM对主体图像的特征图找出相互间差异最大、冗余较少的局部区域位置信息,crop之后得到细尺度图像放到网络中训练。使网络学习到不同尺度、不同局部区域的细粒度特征。
在这里插入图片描述
特点:三个分支中的CNN和FC参数共享。不需要计算多个局部图像的特征向量在所有连接后进行concat分类。
总损失表示为:
在这里插入图片描述
c是输入图像的真实值标签,Pr和Po分别代表raw分支和object分支最后softmax层输出的类别概率。Pp为N个局部图像对应softmax层的输出。三个超参量α,β,γ。总损失是三个分支的损失之和,三个分支在反向传播过程中协同工作以优化模型的性能。使最终的收敛模型能够根据对象的整体结构特征或局部的细粒度特征进行分类预测。

注意主体定位模块AOLM

在这里插入图片描述
首先通过CNNs对输入图像生成K个通道的尺寸为H×W的特征图(feature maps)以此来确定目标主体的位置坐标。
在这里插入图片描述
对特征图f进行聚合得到激活图A。以a的均值作为阈值标准判定位置元素是否为目标主体的一部分。得到Mask区域。

在这里插入图片描述
以Resnet-50进行调整部分卷积层,得到更高的定位精度。

注意局部建议模块APPM

在这里插入图片描述
激活值越高,识别部分所处的区域越多。
利用目标检测中滑动窗口的思想,找到带有信息的窗口作为局部图像。激活均值aw和激活图Aw根据每个对应窗口的特征图在通道维度上进行聚合得到:
在这里插入图片描述
H、W胃部图像经网络计算后输出的特征图的高度和宽度。按aw排序所有窗口值,aw越大该区域信息量越大。为了减少区域冗余,采用菲最大抑制方法选择固定数目的窗口作为不同比例窗口的局部图像。

实验结果

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值