【2024 CVPR】轻量网络StarNet


在这里插入图片描述

论文信息

Title:Rewrite the Stars
Url:https://arxiv.org/abs/2403.19967
Code:https://github.com/ma-xu/Rewrite-the-Stars
DOI:10.1109/CVPR52733.2024.00544

在这里插入图片描述

贡献

  • 作者证明了星(star)操作 ‘*’(逐元素相乘)可以将特征映射到高维的隐式特征空间;
  • 基于星操作,设计了StarNet。

方法

  • 单层星操作
    对于 d d d维的输入特征 X ∈ R ( d + 1 ) × n {\text{X}} \in {\mathbb{R}^{(d + 1) \times n}} XR(d+1)×n和权重 W 1 , W 2 ∈ R ( d + 1 ) × ( d ′ + 1 ) {{\text{W}}_{\text{1}}}{\text{,}}{{\text{W}}_{\text{2}}} \in {\mathbb{R}^{(d + 1) \times (d' + 1)}} W1,W2R(d+1)×(d+1),星操作可以写成 ( W 1 T X +  B 1 ) ∗ ( W 2 T X +  B 2 ) ({\text{W}}_{\text{1}}^{\text{T}}{\text{X + }}{{\text{B}}_{\text{1}}}) * ({\text{W}}_2^{\text{T}}{\text{X + }}{{\text{B}}_2}) (W1TX + B1)(W2TX + B2),将其简化为 ( W 1 T X ) ∗ ( W 2 T X ) ({\text{W}}_{\text{1}}^{\text{T}}{\text{X}}) * ({\text{W}}_2^{\text{T}}{\text{X}}) (W1TX)(W2TX),该特征从 d d d维映射到更高维度 d ′ d' d

    作者重写(rewrite)星操作:
    在这里插入图片描述
    上式中,当 d ≫ 2 d \gg 2 d2时,重写操作可以将 d d d维特征映射到 ( d + 2 ) ( d + 1 ) 2 ≈ ( d 2 ) 2 \frac{{(d + 2)(d + 1)}}{2} \approx {(\frac{d}{{\sqrt 2 }})^2} 2(d+2)(d+1)(2 d)2维隐式特征空间,从而放大了特征维度。

    该重写操作,可以通过下图理解,通过两个全连接层之后,再使用*
    在这里插入图片描述

这个*操作可以直接将两个 d d d维的全连接层隐式地映射到 ( d 2 ) 2 {(\frac{d}{{\sqrt 2 }})^2} (2 d)2,也就是说:
*操作: d → ( d 2 ) 2 d \to {(\frac{d}{{\sqrt 2 }})^2} d(2 d)2无需映入额外的参数
sum操作: d → 2 d d \to 2d d2d

例如:
假设 d d d=3
则对于*操作: ( ∑ i = 1 3 w 1 i x i ) ∗ ( ∑ j = 1 3 w 2 j x j ) = ( w 1 1 x 1 + w 1 2 x 2 + w 1 3 x 3 ) ∗ ( w 2 1 x 1 + w 2 2 x 2 + w 2 3 x 3 ) = ( ) x 1 x 1 + ( ) x 1 x 2 + ( ) x 1 x 3 + ( ) x 2 x 2 + ( ) x 2 x 3 + ( ) x 3 x 3 \begin{gathered} (\sum\limits_{i = 1}^3 {w_1^i{x^i})} * (\sum\limits_{j = 1}^3 {w_2^j{x^j})} \\ = (w_1^1{x^1} + w_1^2{x^2} + w_1^3{x^3}) * (w_2^1{x^1} + w_2^2{x^2} + w_2^3{x^3}) \\ = (){x^1}{x^1} + (){x^1}{x^2} + (){x^1}{x^3} + (){x^2}{x^2} + (){x^2}{x^3} + (){x^3}{x^3} \\ \end{gathered} (i=13w1ixi)(j=13w2jxj)=(w11x1+w12x2+w13x3)(w21x1+w22x2+w23x3)=()x1x1+()x1x2+()x1x3+()x2x2+()x2x3+()x3x3 未引入偏置,所以拥有 ( d + 1 ) d 2 \frac{{(d + 1)d}}{2} 2(d+1)d=6项
则对于sum操作:
( ∑ i = 1 3 w 1 i x i ) + ( ∑ j = 1 3 w 2 j x j ) = ( w 1 1 x 1 + w 1 2 x 2 + w 1 3 x 3 ) + ( w 2 1 x 1 + w 2 2 x 2 + w 2 3 x 3 ) (\sum\limits_{i = 1}^3 {w_1^i{x^i})} + (\sum\limits_{j = 1}^3 {w_2^j{x^j})} = (w_1^1{x^1} + w_1^2{x^2} + w_1^3{x^3}) + (w_2^1{x^1} + w_2^2{x^2} + w_2^3{x^3}) (i=13w1ixi)+(j=13w2jxj)=(w11x1+w12x2+w13x3)+(w21x1+w22x2+w23x3)拥有2 d d d=6项
:可以发现,当 d d d=3 时,*操作和sum操作的项是一样的,所以论文要求 d ≫ 2 d \gg 2 d2时,*操作的优势才能体现。

因此,假设 d d d=32
*操作: ( d + 1 ) d 2 \frac{{(d + 1)d}}{2} 2(d+1)d=528项
sum操作:2 d d d=64项

作者证明了*操作的特征隐式升维

  • StarNet网络
    作者基于*操作,设计了轻量化的StarNet。
    在这里插入图片描述
    设计了不同版本的StarNet【s1、s2、s3和s4】
    在这里插入图片描述

实验

  • 不同网络的实验对比
    在这里插入图片描述
    在这里插入图片描述
  • sum和star操作对比
    在这里插入图片描述
    在这里插入图片描述
    上图可以看出,星(star)操作的Top-1性能优于sum操作。两种操作在GPU和Mobile设备中的推理速度几乎一样。
CVPR2021是计算机视觉和模式识别领域的一个重要国际会议,轻量化网络是其中一个重要的研究方向。随着移动设备的普及和计算能力的提升,人们对于在资源有限的设备上进行高效率的计算的需求越来越大。因此,轻量化网络的研究成为了当前的热点之一。 CVPR2021上展示了许多针对轻量化网络的研究成果。这些研究工作主要围绕如何在计算资源有限的条件下减小模型的计算量和参数量。具体而言,主要包括以下几个方面的内容: 首先,研究者们提出了一些新的网络结构设计方法,以减小模型的计算量。这些方法通过剪枝、裁剪、分组卷积等方式对模型进行优化,减小模型的计算复杂度,同时保持模型的性能。 其次,研究者们还提出了一些模型压缩和加速的方法,以减小模型的参数量。这些方法包括量化、蒸馏、低秩分解等技术,通过对模型参数进行优化,从而减小模型的存储需求和计算复杂度。 此外,研究者们还针对特定任务提出了一些轻量化网络的解决方案。例如,在目标检测和图像分割等任务上,他们设计了一些轻量化的网络结构,以提供高效率的计算和准确的结果。 总的来说,CVPR2021上的轻量化网络研究集中在如何降低计算和存储开销的问题上。这些研究成果有力地推动了计算机视觉和模式识别领域在移动设备和边缘计算等资源有限环境中的应用和发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值