EfficientViT模型详解及代码复现

清风AI

于 2025-03-02 21:25:40 发布

阅读量728

点赞数 5

文章标签：深度学习机器学习计算机视觉人工智能算法

本文链接：https://blog.csdn.net/noboxihong/article/details/145970563

版权

核心架构

在EfficientViT模型的核心架构中，作者设计了一种创新的 sandwich布局 作为基础构建块，旨在提高内存效率和计算效率。这种布局巧妙地平衡了自注意力层和前馈神经网络层的比例，具体结构如下：

基于深度卷积的Token Interaction ：通过深度卷积操作对输入特征进行初步处理，提取局部特征并减少计算复杂度。
线性FFN ：采用线性前馈神经网络层，实现特征的非线性变换，同时保持计算效率。
GroupAttention ：引入分组注意力机制，将特征分为不同的组，分别送入不同的注意力头，减少计算冗余并提高多样性。
基于深度卷积的Token Interaction ：再次应用深度卷积操作，进一步处理特征并促进信息融合。
线性FFN ：最后使用线性FFN层，对特征进行最终的非线性变换和特征整合。

这种sandwich布局的核心思想是在高效的FFN层中间使用一个memory-bound的MHSA层。这种设计不仅减少了MHSA中内存效率低下操作的时间成本，还通过增加FFN层的数量来促进不同通道之间的通信。

此外，EfficientViT模型还采用了 cascaded group attention (CGA)模块 来进一步提高计算效率。CGA模块的核心思想是增强送入注意力头的特征的多样性。与传统的自注意力机制不同，CGA模块为每个头提供不同的输入，并将输出特征在头之间级联。这种设计不仅减少了多头注意力中的计算冗余，还通过增加网络深度来提高模型容量。

通过这种创新的核心架构设计，EfficientViT模型在保持高精度的同时，显著提高了内存效率和计算效率，为实时视觉应用提供了强大的支持。

创新特点

EfficientViT模型在多个方面展现了创新性，这些创新不仅提高了模型的效率，还在性能上取得了显著突破。以下是该模型的几个关键创新点：

创新的网络架构设计 ：采用了一种独特的 三明治布局 结构。这种结构在高效的前馈神经网络层（FFN）之间插入一个memory-bound的多头自注意力层（MHSA）。这种设计巧妙地平衡了模型的计算效率和内存效率，同时促进了不同通道之间的信息交流。具体来说，三明治布局通过减少MHSA中内存效率低下操作的时间成本，提高了整体的计算效率，同时增加FFN层的数量来促进通道间的通信，从而提高了模型的表达能力。
创新的级联组注意力模块 ：这种模块通过为每个注意力头提供不同的输入特征，并将输出特征在头之间级联，有效减少了多头注意力中的计算冗余。这种设计不仅提高了计算效率，还通过增加网络深度来提高模型的容量，从而在不增加计算成本的情况下提高了模型的性能。
创新的参数分配策略 ：EfficientViT模型通过 重新分配关键网络组件的通道宽度 来提高参数效率。具体而言，模型扩大了价值预测等重要组件的通道宽度，同时缩小了FFN中的隐藏维度等相对不重要的组件。这种参数重新分配策略使得模型能够在保持高性能的同时，显著降低计算复杂度，从而提高了模型的整体效率。
创新的多尺度线性注意力模块 ：该模块巧妙地结合了全局感受野和多尺度学习的优势。通过使用ReLU线性注意力替代传统的softmax注意力，模型将计算复杂度从二次降为线性，同时避免了softmax等硬件低效操作。为了弥补ReLU线性注意力在捕捉局部信息方面的不足，模型在每个FFN层插入深度可分离卷积，增强了局部信息捕捉能力。这种设计不仅提高了模型的计算效率，还提升了模型在处理高分辨率图像时的性能。