BotNet

最新推荐文章于 2023-09-05 00:05:09 发布

watersink

最新推荐文章于 2023-09-05 00:05:09 发布

阅读量1w

点赞数 6

分类专栏：深度学习文章标签：深度学习 pytorch 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_14845119/article/details/113619178

版权

深度学习专栏收录该内容

49 篇文章 6 订阅

订阅专栏

物来顺应，未来不迎，当时不杂，既过不恋。 ----曾国藩

论文： Bottleneck Transformers for Visual Recognition

GitHub：https://github.com/leaderj1001/BottleneckTransformers

https://github.com/lucidrains/bottleneck-transformer-pytorch

https://github.com/BIGBALLON/distribuuuu/blob/master/distribuuuu/models/botnet.py

谷歌出品，BotNet即将ResNet中的第4个block中的bottleneck替换为MHSA（Multi-Head Self-Attention）模块，形成新的模块，取名叫做Bottleneck Transformer (BoT) 。最终由BoT这样的block组合成的网络结构就叫做BotNet。

最终基于BotNet的Mask R-CNN的实例分割在coco数据集上取得了44.4% Mask AP ，49.7% Box AP。

在分类任务中，在 ImageNet上取得了84.7%的top-1准确性。并且比 EfficientNet快2.33倍。

视觉任务attention汇总：

MHSA模块：

LEFT：经典的 Transformer结构

Middle：BoT block结构

RIGHT：基于MHSA改进的resnet bottleneck

Transformer中的MHSA和BoTNet中的MHSA的区别：

归一化，Transformer使用 Layer Normalization，而BoTNet使用 Batch Normalization。
非线性激活，Transformer仅仅使用一个非线性激活在FPN block模块中，BoTNet使用了3个非线性激活。
输出投影，Transformer中的MHSA包含一个输出投影，BoTNet则没有。
优化器，Transformer使用Adam优化器训练，BoTNet使用sgd+ momentum

MHSA包含了位置的attention和内容的attention。

网络结构：

基于显存开销和计算量的考虑，只将ResNet的c5 block中的残差结构替换为MHSA结构。

实验结果：

总结：

BotNet，一个新的基于attention思想的网络结构，效果优于 SENets， EfficientNets。

关注

6
点赞
踩
54

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。