CVPR2024 论文《Rewrite the Stars》阅读笔记

江木27

已于 2024-08-03 11:32:45 修改

阅读量2k

点赞数 28

分类专栏：论文笔记文章标签：论文阅读论文笔记

于 2024-08-03 11:30:59 首次发布

本文链接：https://blog.csdn.net/qq_40938217/article/details/140886254

版权

论文笔记专栏收录该内容

17 篇文章

订阅专栏

论文概述

论文地址：http://arxiv.org/abs/2403.19967
源码地址：https://github.com/ma-xu/Rewrite-the-Stars
该论文介绍了一种使用“星运算”（即逐元素相乘）进行网络设计的新方法，提出了一种名为StarNet的原型网络，利用星运算在不增加网络宽度的情况下实现高性能和高效率。以下是主要内容的总结：

星运算：这是一种通过逐元素相乘来融合不同子空间特征的范式。它为传统的线性投影方法提供了一种有前途的替代方案，类似于机器学习中的核技巧，通过将输入映射到高维非线性特征空间来实现。
StarNet：一种简单高效的网络架构，集成了星运算，以紧凑的设计实现了出色的性能。StarNet在包括图像分类在内的各种任务中展示了低延迟和高准确率。
方法：星运算与求和，星运算在性能上始终优于求和，尤其是在较窄宽度的网络中。这归因于其能够在不扩展网络宽度的情况下将输入映射到高维空间。
可以发现不同网络宽度下星运算始终优于求和运算

重要概念和方法

1.星形运算具有将输入映射到非常高维的非线性特征空间的能力。

传统神经网络通过增加通道数（即网络宽度）来提升模型的能力，而星运算则通过在现有通道间引入复杂的非线性交互来实现高维映射，这种方式更加高效且不需要增加大量计算资源
- 元素间非线性组合：星运算通过逐元素相乘，将输入特征的不同通道进行非线性组合。这种操作可以创建大量的交互项，使得特征空间的维度显著增加。相比于简单的线性变换，星运算能够捕捉到更复杂的特征关系

Star Operation in One layer

在神经网络的单层中，星运算通常表示为
文中为简化将权重和偏置合并为一个实体
结果得到∗ 表示逐元素相乘运算
将上式展开

这一过程产生了((d+2)(d+1))/2个不同的项，其中每一项（除去与偏置相关的项）都是输入特征的非线性组合，这表明它们是独立的隐含维度,该特性与核函数类似，可以增加特征空间的维度而不增加额外的计算负担如下图

Generalized to multiple layersx

假设网络宽度d，计算上一层星运算的输出表示为（6），那么每一层星运算输出O可以递归表示为：
通过这种递归关系，星运算在每一层都会指数级地增加隐含特征空间的维度。对于一个宽度为128的10层等方网络，星运算生成的隐含特征维度数约为90的1024次方，可以近似看作是无限维度，星运算在多个层次上的推广通过指数级地增加隐含特征维度，实现了高效且强大的特征表示能力。

Extension to networks without activations

在本研究中，虽然我们主要关注的是通过星型运算获得的隐式高维特征，但非线性方面也具有深远的重要性。为了研究这一点，我们通过从DemoNet中删除所有激活来进行实验，从而创建一个无激活的网络。
正如预期的那样，去除所有激活后，求和操作的性能明显恶化，从66.2%降至32.4%。与之形成鲜明对比的是，星形作业仅受到消除激活的最小影响，精度仅下降1.2%。
这一实验验证了星运算在无激活函数条件下仍能保持非线性和高维特性，表明星运算在无激活网络中的潜力