集智书童 | 边缘AI革命!MicroViT 革新轻量视觉Transformer:3.6倍速+40%能效提升,突破边缘部署极限

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:边缘AI革命!MicroViT 革新轻量视觉Transformer:3.6倍速+40%能效提升,突破边缘部署极限

导读

视觉Transformer(ViT)在各种计算机视觉任务中展现了最先进的性能,但其高计算需求使其在资源有限的边缘设备上不切实际。本文提出了MicroViT,这是一种轻量级的视觉Transformer架构,通过显著降低计算复杂度,同时保持高精度,针对边缘设备进行了优化。MicroViT的核心是高效单头注意力(ESHA)机制,该机制利用分组卷积来减少特征冗余,并仅处理部分通道,从而减轻了自注意力机制的负担。MicroViT采用多阶段MetaFormer架构进行设计,通过堆叠多个MicroViT编码器来提升效率和性能。在ImageNet-1K和COCO数据集上的全面实验表明,MicroViT在保持与MobileViT系列相当精度的同时,显著提高了3.6倍的推理速度,并提高了40%的效率,减少了能耗,使其适用于移动和边缘设备等资源受限的环境。

1. 引言

近年来,Transformer在计算机视觉领域受到了广泛关注,并取得了显著成就。该领域的一个显著发展是视觉Transformer(ViT)[1]的引入,它利用纯Transformer进行图像分类任务。继ViT之后,提出了多个模型以提高性能,在包括图像分类、目标检测和分割等在内的多种视觉任务中取得了有希望的结果[2]-[6]。

尽管vanilla Vision Transformer&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值