MMAL-Net 论文解读

最新推荐文章于 2024-05-26 10:03:58 发布

Dear_林

最新推荐文章于 2024-05-26 10:03:58 发布

阅读量2.8k

点赞数 4

分类专栏： paper 文章标签：深度学习 cnn 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dear_learner/article/details/122145688

版权

MMAL-Net是一种针对细粒度分类的深度学习网络，由AOLM（注意力对象定位模块）和APPM（注意力部分提议模块）构成。AOLM预测物体位置，APPM寻找关键部分，通过多尺度学习增强分类性能和尺度鲁棒性。在测试阶段，网络结构简化，提高了效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

MMAL-Net 网络结构

论文：链接

代码：链接

简介

在细粒度分类任务中，由于较小的类间差异和较大的类内差异，使其成为一项具有挑战性的问题。针对此情况，作者提出三分支（多分支）多尺度学习网络结构MMAL-Net，该网络结构只要包含两个模块：

1、AOLM(attention object location module):用来预测物体的位置；

2、APPM(attention part proposal module):在不需要边界框或标注的情况下，预测物体重点区域的信息。

通过三个分支的网络结构训练不同尺度的图像，使得该网络结构有良好的分类能力以及对不同尺度的图像有很好的鲁棒性。

MMAL-Net的网络结构如下：

1、raw branch：输入原始图像（raw image），通过CNN学习物体的整体特征，并生成的feature maps用于下一分支；
2、AOLM：原始图像的feature maps经过AOLM模块学习到物体的边界框信息；
3、object branch：根据边界框信息对原始图像进行crop，得到较细尺度的目标图像（object image）不仅包含目标物体的结构特征还包含较细粒度的特征，输入CNN网络中，具有更好的分类效果；
4、APPM：根据目标图像的feature maps得到几个差异最大、冗余度最小的局部区域（part regions）；
5、part branch：从目标图像（object image）中裁剪局部区域输入到CNN中训练；
6、在三个分支中CNN和FC的参数是共享的，因此网络结构对不同尺度，不同部位的物体有较好的分类能力；
7、测试阶段只包含上图中的绿框中的结构；分类损失函数是cross entropy loss。

以上就是MMAL-Net网络的整体结构。

AOLM

1638605233(1).png

通过CNNs对输入图片生成C×H×W的feature maps,来确定目标主体的位置坐标。

1638605549(1).png

通过上述公式得到activation map A，其中fi是第i个channel的feature map。从A中可看出网络重点识别的区域以及目标的位置信息。

然后以A的均值a作为阈值来判断位置元素是否为目标主体的一部分，得到mask区域。

论文中，作者经过实验验证，目标经常出现在最大的联通区域内，因此将最大连通区域的最小边界框作为目标的位置信息。

在训练ResNet-50中，取 $\tilde{M}_{conv\; 5c}$ 和 $\tilde{M}_{conv\; 5b}$ 交集可以得到位置信息更准确的mask M。

根据mask M对原始图像进行crop得到object image，输入到object branch。

AOLM的实现

def AOLM(fms, fm1):
    # fms:[B, C, H, W]
    # conv

最低0.47元/天解锁文章

博客等级

码龄3年

37
原创

118
点赞

664
收藏

36
粉丝

关注

私信

热门文章

分类专栏

paper 7篇
CV 3篇
python 6篇
Daily Notes 2篇
pytorch 18篇
Deep Learning 3篇
数据结构与算法 1篇
机器学习 2篇

展开全部收起

上一篇：: WS-DAN论文解读

下一篇：: CBAM:Convolutional Block Attention Module

最新评论

MMAL-Net 论文解读
Dear_林: 这个没有哎
MMAL-Net 论文解读
SJC770: 请问您有MMAL-Net在stanford cars数据集预训练过的模型吗？
pytorch学习笔记十一：损失函数
qq_50069900: 博主很棒，讲了很多
labelimg的安装与使用
Dear_林: 切换到英文输入法试试？或者可以根据这个https://github.com/heartexlabs/labelImg重新安装一下
labelimg的安装与使用
L..K: 大佬想问个问题，就是我用这个软件的时候，用快捷键w框选完之后想换下一页，按d，可是没有反应，不用w的时候下一页的快捷键就能用，请问这个原因怎么解决？？

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。