集智书童 | 边缘AI革命！MicroViT 革新轻量视觉Transformer：3.6倍速+40%能效提升，突破边缘部署极限

双木的木

于 2025-02-19 10:42:45 发布

阅读量952

点赞数 9

分类专栏： Transformer专栏深度学习拓展阅读文章标签：人工智能 transformer YOLO 深度学习 python cnn 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_xmj/article/details/145722137

版权

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：边缘AI革命！MicroViT 革新轻量视觉Transformer：3.6倍速+40%能效提升，突破边缘部署极限

导读

视觉Transformer（ViT）在各种计算机视觉任务中展现了最先进的性能，但其高计算需求使其在资源有限的边缘设备上不切实际。本文提出了MicroViT，这是一种轻量级的视觉Transformer架构，通过显著降低计算复杂度，同时保持高精度，针对边缘设备进行了优化。MicroViT的核心是高效单头注意力（ESHA）机制，该机制利用分组卷积来减少特征冗余，并仅处理部分通道，从而减轻了自注意力机制的负担。MicroViT采用多阶段MetaFormer架构进行设计，通过堆叠多个MicroViT编码器来提升效率和性能。在ImageNet-1K和COCO数据集上的全面实验表明，MicroViT在保持与MobileViT系列相当精度的同时，显著提高了3.6倍的推理速度，并提高了40%的效率，减少了能耗，使其适用于移动和边缘设备等资源受限的环境。

1. 引言

近年来，Transformer在计算机视觉领域受到了广泛关注，并取得了显著成就。该领域的一个显著发展是视觉Transformer（ViT）[1]的引入，它利用纯Transformer进行图像分类任务。继ViT之后，提出了多个模型以提高性能，在包括图像分类、目标检测和分割等在内的多种视觉任务中取得了有希望的结果[2]-[6]。

尽管vanilla Vision Transformer&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。