MobileFormer-MobileNet和Transformer的相结合得结构

看到了一篇比较有意思的论文Mobile-Former: Bridging MobileNet and Transformer 。在论文中,作者提出了一个并行设计的双向连接MobileNet和Transformer的结构Mobile-Former。这种结构利用了MobileNet在局部信息处理和Transformer的在全局交互方面的优势,这样的连接可以实现局部和全局特征的双向融合。不同于现有的Vision Transformer,Mobile-Former中的Transformer包含很少的、随机初始化的tokens,因此计算量非常小。通过用一个非常lightweight的cross attention将MobileNet和Transformer连接起来,使得MobileFormer不仅计算量非常小,而且也能拥有超强的表征能力。在ImageNet分类任务上,从25M到500M FLOPs的复杂度下,所提出的Mobile-Former方案均取得了优于MobileNetV3的性能。例如,它在294M FLOPs上达到了77.9%的Top-1准确率,比MobileNetV3增加了1.3%,但节省了17%的计算量。当转移到目标检测任务上时,Mobile-Former的性能比MobileNetV3高出8.6AP。

 现在transformer 已经广泛应用于计算机视觉任务中的不任务中,都取得了优秀的成绩,现在transformer 跟当初attention 机制一样,开始往不同的任务中插入使用。大佬提出这个概念以后,我们这些小罗罗开始喝点汤。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值