CVPR2024 论文《Rewrite the Stars》阅读笔记

论文概述

论文地址:http://arxiv.org/abs/2403.19967
源码地址:https://github.com/ma-xu/Rewrite-the-Stars
该论文介绍了一种使用“星运算”(即逐元素相乘)进行网络设计的新方法,提出了一种名为StarNet的原型网络,利用星运算在不增加网络宽度的情况下实现高性能和高效率。以下是主要内容的总结:

  • 星运算:这是一种通过逐元素相乘来融合不同子空间特征的范式。它为传统的线性投影方法提供了一种有前途的替代方案,类似于机器学习中的核技巧,通过将输入映射到高维非线性特征空间来实现​​。

  • StarNet:一种简单高效的网络架构,集成了星运算,以紧凑的设计实现了出色的性能。StarNet在包括图像分类在内的各种任务中展示了低延迟和高准确率。
    在这里插入图片描述

  • 方法:星运算与求和,星运算在性能上始终优于求和,尤其是在较窄宽度的网络中。这归因于其能够在不扩展网络宽度的情况下将输入映射到高维空间​​。
    在这里插入图片描述

  • 可以发现不同网络宽度下星运算始终优于求和运算

重要概念和方法

1.星形运算具有将输入映射到非常高维的非线性特征空间的能力。

  • 传统神经网络通过增加通道数(即网络宽度)来提升模型的能力,而星运算则通过在现有通道间引入复杂的非线性交互来实现高维映射,这种方式更加高效且不需要增加大量计算资源
    • 元素间非线性组合:星运算通过逐元素相乘,将输入特征的不同通道进行非线性组合。这种操作可以创建大量的交互项,使得特征空间的维度显著增加。相比于简单的线性变换,星运算能够捕捉到更复杂的特征关系

Star Operation in One layer

  • 在神经网络的单层中,星运算通常表示为在这里插入图片描述
  • 文中为简化将权重和偏置合并为一个实体在这里插入图片描述
  • 结果得到在这里插入图片描述∗ 表示逐元素相乘运算
  • 将上式展开
    在这里插入图片描述
    这一过程产生了((d+2)(d+1))/2个不同的项,其中每一项(除去与偏置相关的项)都是输入特征的非线性组合,这表明它们是独立的隐含维度,该特性与核函数类似,可以增加特征空间的维度而不增加额外的计算负担如下图
    在这里插入图片描述

Generalized to multiple layersx

  • 假设网络宽度d,计算上一层星运算的输出表示为(6),那么每一层星运算输出O可以递归表示为:
    在这里插入图片描述
  • 通过这种递归关系,星运算在每一层都会指数级地增加隐含特征空间的维度。对于一个宽度为128的10层等方网络,星运算生成的隐含特征维度数约为90的1024次方,可以近似看作是无限维度,星运算在多个层次上的推广通过指数级地增加隐含特征维度,实现了高效且强大的特征表示能力。

Extension to networks without activations

  • 在本研究中,虽然我们主要关注的是通过星型运算获得的隐式高维特征,但非线性方面也具有深远的重要性。为了研究这一点,我们通过从DemoNet中删除所有激活来进行实验,从而创建一个无激活的网络。
  • 正如预期的那样,去除所有激活后,求和操作的性能明显恶化,从66.2%降至32.4%。与之形成鲜明对比的是,星形作业仅受到消除激活的最小影响,精度仅下降1.2%。
    在这里插入图片描述
  • 这一实验验证了星运算在无激活函数条件下仍能保持非线性和高维特性,表明星运算在无激活网络中的潜力

结果

在这里插入图片描述

总结

原文做了很多的实验来证明星运算的有效性,本文就不一一例举了,整体网络架构和理念还是比较简单的,内容如有不当多多指教。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值