![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 93
EDPJ
这个作者很懒,什么都没留下…
展开
-
(2021|Nature,深度算子网络(DeepONet),算子的通用逼近定理(UAT),逼近/优化/泛化误差)
UAT 仅保证一个足够大的网络有较小的逼近误差,并且没有考虑重要的优化和泛化误差。为了在实践中实现这一定理,本文提出 DeepONet,以从相对较小的数据集中学习算子。它包含一个编码输入函数的主干网络,和一个用于编码输出函数的位置的分支网络原创 2024-07-19 17:01:49 · 804 阅读 · 0 评论 -
(2024,变分 SSM(VSSM),自回归 VSSM,并行训练和生成,VAE)利用变分 SSM 并行化自回归生成
本文提出VSSM,一种VAE,其编译码器均为SSM。由于采样潜变量并使用解码它们可以并行化,因此训练和生成都可并行进行。本文还提出一种以部分实现(例如,提示)为条件的并行生成方法:自回归VSSM,可在语言生成任务中根据部分序列进行条件生成原创 2024-07-12 19:59:11 · 638 阅读 · 0 评论 -
(2024,RotRNN,SSM,旋转矩阵,LRU,初始化和归一化)使用旋转对长序列进行建模
SSM的实现涉及矩阵幂的计算,如果没有仔细的初始化和归一化,可能会导致数值不稳定的状态值。为简化初始化,LRU引入了由递归状态矩阵的特征分解驱动的对角矩阵参数化。但归一化 LRU 层依赖于限制性假设,并且算法的实际实现偏离了理论推导。本文通过将状态矩阵参数化为旋转矩阵,从而在归一化时使用更少的限制性假设,并允许实现忠实于理论动机原创 2024-07-12 19:56:46 · 895 阅读 · 0 评论 -
(2024,频域 SSM,SSM 的学习动态,时域递归到频域调制标量乘法)深度 SSM 中的学习动态理论
本文关注 SSM 在频域中的学习动态,推导了在线性 SSM 中基于平方损失进行梯度下降的动态解析形式,得出结论:更强的输入输出协方差将导致更快的收敛(对于任何给定的序列数据,其最强的协方差结构将首先被学习到);通过使用更多潜在状态维度来参数化 SSM 可以加速学习收敛原创 2024-07-11 15:25:01 · 890 阅读 · 0 评论 -
(2024,无分类器引导 CFG,独立条件引导 ICG,时间步引导 TSG)没有训练,没有问题:重新思考用于扩散模型的 CFG
本文重新审视 CFG,并提出 ICG:在训练好的条件扩散模型中用独立条件替换条件向量,来估计无条件分布的得分,而无需在训练过程中学习无条件模型。受此启发,本文还提出 TSG,展示了扩散模型学习到的时间步信息可以用于提高生成质量,即使对于无条件模型也是如此原创 2024-07-11 15:13:27 · 870 阅读 · 0 评论 -
(2024,测试时训练(TTT),线性注意力,RNN,嵌套循环)学习(在测试时学习):具有表达性隐藏状态的 RNN
通过使隐藏状态成为一个机器学习模型,并将更新规则设为自监督学习的一步,本文将监督学习表述为学习如何学习,包含两个嵌套循环。外循环与常规训练相同。外循环的参数是内循环的超参数。由于隐藏状态在测试序列上也会进行训练更新,这些层被称为TTT层原创 2024-07-10 15:11:40 · 2220 阅读 · 0 评论 -
(2024,稀疏 MoE,大量小专家,参数高效专家检索 PEER,product key 检索)混合百万专家
稀疏 MoE 可解耦模型大小与计算成本,且更细粒度的 MoE 具有更好的性能。基于此,本文介绍 PEER 层,利用乘积键技术从大量小专家中进行稀疏检索。在语言建模的实验表明,PEER 层在性能与计算的权衡中优于密集 FFW 和粗粒度 MoE原创 2024-07-08 15:11:45 · 684 阅读 · 0 评论 -
(2024)KAN: Kolmogorov–Arnold Networks:评论
KAN 有足够的贡献,值得发表。但一些声明需要弱化,解释需要澄清,并且需要与基于样条的神经网络进行比较。原创 2024-07-05 16:28:59 · 1063 阅读 · 0 评论 -
(2024,DDPM,DDIM,流匹配,SDE,ODE)扩散:基础教程
本文的目标是尽可能简单地教授扩散。第一节介绍扩散的基本原理。第二节和第三节展示如何构建随机和确定性扩散采样器。第四部分介绍了密切相关的流匹配,可看作是扩散的推广。第五节,强调实践中最重要的一些设计选择,包括采样器、噪声时间表和参数化方法。原创 2024-06-30 21:11:40 · 824 阅读 · 0 评论 -
(2024,RNN,梯度消失和爆炸,记忆诅咒,重参数化和动态学习率,权重矩阵对角化,复值 RNN)梯度消失和爆炸并不是故事的结局
由于RNN的迭代性质,即使网络动态保持稳定,随着网络记忆的增加,也可能会出现梯度消失或爆炸。重新参数化和自适应学习率在实践中可以有效地缓解这种行为,且对递归进行对角化可简化这两者。学习复特征值有助于减少模型的参数量、降低 loss,且仅略微降低了模型的表达能力,但由于其难以学习,在最近的大多数 SSM 中,复数未被发现有用。原创 2024-06-27 21:21:52 · 960 阅读 · 0 评论 -
(2024,稀疏高秩适配器(SHiRA),适配器快速切换和多适配器融合,稀疏掩码,稀疏高秩且正交的适配器,移动场景部署)
SHiRA可解决LoRA在快速切换适配器时的面临问题以及多适配器融合时概念丢失的问题。它直接微调1-2%的基模型权重,并冻结其他权重,获得一个高度稀疏的适配器。它还设计特殊的稀疏掩码,获得近乎正交的适配器权重,从而实现多适配器融合原创 2024-06-26 19:33:39 · 928 阅读 · 0 评论 -
(2024,频域 LoRA,DFT,DCT,自适应门控,基于适配器组合的图像编辑)FouRA:傅里叶 LoRA
投影到低秩子空间并投影回来容易导致信息丢失。为此,FouRA将输入转换到包含紧凑表示的具有解相关能力的频域。它使用自适应门控机制进行秩选择,从而可增强微调模型的泛化能力。基于频域解相关能力,可通过组合多个适配器来进行域迁移和图像编辑原创 2024-06-26 16:09:45 · 999 阅读 · 0 评论 -
(2024,RWKV-CLIP,VLM,表示学习,通道混合和空间混合,基于 LLM 的标题精练):强大的视觉语言表示学习器
RWKV-CLIP 是 RWKV 驱动的视觉语言表示学习模型。它采用了双塔架构,具有类似于 Transformer 的块堆叠编码器,每个块由一个空间混合模块和一个通道混合模块组成。此外,它使用LLM来获得精炼的图像描述。原创 2024-06-21 19:41:22 · 1002 阅读 · 0 评论 -
(2024,Vision-RWKV,线性复杂度双向注意力,四向标记移位)通过类似 RWKV 的架构实现高效且可扩展的视觉感知
VRWKV 采用双向注意力,并通过 RWKV 的指数衰减机制,使全局注意力的复杂度从二次降低到线性。四向标记移位可缓解一维衰减与二维图像中的邻近关系不对齐的问题。与 ViT 相比,它复杂度低,在处理高分辨率图像时表现出色,无需窗口操作原创 2024-06-21 19:32:01 · 980 阅读 · 0 评论 -
(2024,示例记忆,模型记忆,遗忘,差分评估,概率评估)深度学习中的记忆:综述
深度神经网络(DNNs)驱动的深度学习(DL)已经在各个领域引发了革命性变化,但理解 DNN 决策和学习过程的复杂性仍然是一个重大挑战。最近的研究发现了一个有趣的记忆现象,即DNN 倾向于记住示例中的具体细节,而不是学习一般图样(pattern),这会影响模型的泛化能力、安全性和隐私性。这引发了关于 DNN 泛化性质及其易受安全漏洞影响的关键问题。在本次调查中,我们提出了一个系统的框架,根据泛化和安全/隐私领域组织记忆的定义,并总结了在示例和模型级别的记忆评估方法。原创 2024-06-11 17:08:25 · 943 阅读 · 1 评论 -
(2024,选择性遗忘,积极遗忘,消极遗忘)机器学习及其他领域的“遗忘”:综述
遗忘是一种适应性功能,而非缺陷,它可以增强学习过程并防止过拟合。遗忘包括选择性遗忘和损害性遗忘(灾难性遗忘)。本文关注前者,即有选择地忽略无关或噪声数据,有助于优化模型的内存利用,提高其概括能力,并增强其对不同数据集和任务的适应性原创 2024-06-11 17:07:48 · 642 阅读 · 0 评论 -
(2024,自监督 ViT,全监督 ViT,损失可视化,MAE,RC-MAE,自蒸馏,EMA)可视化自监督 ViT 的损失景观
与基于分类任务的损失景观可视化不同,本文通过计算预训练任务损失来可视化 ViT 的损失景观,观察到自监督 ViT 比完全监督 ViT 具有更平滑和更宽的整体损失曲率,且自蒸馏架构(即 EMA 教师)有助于扩展凸区域,加速收敛速度。原创 2024-06-09 18:02:25 · 757 阅读 · 0 评论 -
(2024,扩散,DMP,提示混合,动态门控,阶段特异性,微调)通过混合提示进行扩散模型修补
本文提出扩散模型修补(DMP),可提升已收敛的预训练扩散模型的性能且仅增加微量参数。DMP 保持原始模型冻结,并利用动态门控将一组时间步特定的可学习提示集成到每个时间步的模型行为中,根据去噪过程中的当前时间步(或噪声水平)自适应地组合提示。原创 2024-06-09 17:57:53 · 691 阅读 · 0 评论 -
(2024,Vision-LSTM,ViL,xLSTM,ViT,ViM,双向扫描)xLSTM 作为通用视觉骨干
ViL 将 xLSTM 架构应用于视觉任务。它首先通过共享的线性投影将图像分割成不重叠的补丁,然后为每个补丁标记添加可学习的位置嵌入。它交替地处理补丁标记序列。奇数模块按行从左上角处理到右下角,而偶数模块从右下角处理到左上角。相比于 ViT 和 ViM,ViL 有一致地更好的性能。原创 2024-06-08 18:26:17 · 1112 阅读 · 0 评论 -
(2024,ViT,小波变换,图像标记器,稀疏张量)基于小波的 ViT 图像标记器
本文使用基于小波的图像标记器(tokenizer)来代替标准 ViT 的补丁卷积标记器,从而在不改变 ViT 架构的情况下提高了训练吞吐量和 top-1 精度。新标记器可为非均匀网格上的图像标记和超分辨率等方向提供新视角。原创 2024-06-07 17:13:03 · 913 阅读 · 0 评论 -
(2024|ICML,Mamba2,SSD,SSM,SMA,矩阵变换,张量收缩,张量并行)Transformer 是 SSM
本文提出 SSD 框架,它使用两种表示序列模型的框架(矩阵变换和张量收缩)揭示了 SSM 与结构化掩码注意力的对偶性。基于此,它修改 Mamba 模块,来实现张量并行,并结合修改的 Mamba 模块与 SSD,形成可并行的 Mamba2原创 2024-06-04 04:31:26 · 1765 阅读 · 0 评论 -
(2024,扩散,去噪调度,维度,误差,收敛速度)适应基于分数的扩散模型中的未知低维结构
在DDPM中,去噪步骤中误差依赖于高维环境维度d。然而基于分数的扩散模型的目标分布(维度k)集中于或接近其所在的高维空间中的低维流形。一个合理的推测是,DDPM 采样器的收敛速度实际上取决于k而非d。当前理论理解仍然不足。本文通过独特设计的去噪系数(调度),使去噪误差和收敛速度与k而不是d有关。原创 2024-06-02 20:44:38 · 1004 阅读 · 0 评论 -
(2024,Flag-DiT,文本引导的多模态生成,SR,统一的标记化,RoPE、RMSNorm 和流匹配)Lumina-T2X
Lumina-T2X是基于流的大型DiT,它统一了不同模态在各种时空分辨率下的表示,从而实现文本引导的任何分辨率、宽高比和长度的多模态灵活生成。RoPE、RMSNorm 和流匹配增强了其稳定性、灵活性和可扩展性。原创 2024-06-01 23:01:28 · 1125 阅读 · 0 评论 -
(2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少
LoRA的性能显著低于全量微调,但它能缓解对源域的遗忘。与权重衰减和丢弃相比,LoRA 提供了更强的正则化;它还有助于保持多样化生成。全量微调学习的扰动的秩比典型的 LoRA 配置高 10-100 倍,这可能解释了一些报告中的差距。原创 2024-06-01 19:34:43 · 753 阅读 · 0 评论 -
(2021,AFT,MHA,RWKV 基础,线性内存复杂度)无注意力的 Transformer
AFT是一种高效的 Transformer变体:在 AFT 层中,键和值首先与一组学习到的位置偏置结合,其结果与查询按元素方式相乘。该方法消除了点积自注意力的需求,不需要计算和存储昂贵的注意力矩阵,同时保持了查询和值之间的全局交互。原创 2024-06-01 16:59:42 · 608 阅读 · 0 评论 -
(2024,Video2Game,NeRF,Mesh,物理模块,游戏引擎)通过单个视频实现实时、交互、逼真且兼容浏览器的环境
Video2Game 能够将现实场景视频转换为逼真且互动的游戏环境,包括捕捉场景几何和视觉外观的NeRF模块,从 NeRF 提取知识以加速渲染的网格模块;以及建模对象间相互作用和物理动态的物理模块。该交互式环境可整合到现有的游戏引擎中。原创 2024-05-31 16:52:55 · 809 阅读 · 0 评论 -
(2020|ICML PMLR,线性 Transformer,核函数,RNN)Transformer 是 RNN
本文通过使用核函数将注意力表示为核特征映射的线性点积,并利用矩阵乘积的结合性将复杂度从二次变为线性。该方法可迭代实现,大大加速了自回归 Transformer。本文指出任何具有因果掩码的 transformer 层都可以被表示为RNN。原创 2024-05-28 23:02:02 · 911 阅读 · 0 评论 -
(2024,RWKV-5/6,RNN,矩阵值注意力状态,数据依赖线性插值,LoRA,多语言分词器)Eagle 和 Finch
本文介绍RWKV-5/6,其核心架构与RWKV类似。5增加了矩阵值注意力状态(利用过去的token)、注意力头上的LN、SiLU注意力门控和改进的初始化。它还取消了接受的激活函数。6进一步将数据依赖性应用于衰减调度和 token 移位原创 2024-05-28 20:26:17 · 1045 阅读 · 0 评论 -
(2023|EMNLP,RWKV,Transformer,RNN,AFT,时间依赖 Softmax,线性复杂度)
RWKV 结合了 Transformer 的高效并行训练和 RNN 的高效推理。它由堆叠的残差块组成。每个块包含一个时间混合和一个通道混合子块,使用递归结构来利用过去信息。它使用由AFT启发的注意力更新过程,包括时间依赖的softmax原创 2024-05-28 16:53:21 · 905 阅读 · 0 评论 -
(2024,DDDM,ODE,少量步生成,迭代生成)直接去噪扩散模型
本文介绍 DDDM,采用少步采样生成逼真的图像,同时保留了多步采样以获得更好的性能。它迭代地进行生成:它使用估计的地面真实数据训练扩散模型,该目标是由自身之前训练迭代生成的;它还考虑了来自上一个时间步的样本。原创 2024-05-27 18:55:33 · 622 阅读 · 0 评论 -
(2024,基于熵的激活函数动态优化,具有边界条件的最差激活函数,修正正则化 ReLU)寻找更优激活函数
过去对激活函数的搜索主要依赖于经验知识,缺乏理论指导,这阻碍了更有效激活函数的识别。本文从信息熵的角度理论证明了具有边界条件的最差激活函数的存在,并提出了基于熵的激活函数优化方法,具有在迭代训练过程中动态优化激活的潜力。原创 2024-05-27 17:03:29 · 630 阅读 · 0 评论 -
(2024,attention,可并行计算的 RNN,并行前缀扫描)将注意力当作 RNN
本文提出注意力机制可以被视为特殊的RNN,并引入基于并行前缀扫描解决传统RNN无法高效地用新token更新的问题。Aaren,一种基于注意力的模块,可像Transformer一样并行训练,还能像RNN一样用新token更新,且仅需固定内存原创 2024-05-26 21:38:48 · 1189 阅读 · 2 评论 -
(2024,SDE,对抗薛定谔桥匹配,离散时间迭代马尔可夫拟合,去噪扩散 GAN)
薛定谔桥问题结合最优输运和扩散模型,可用 IMF 求解,但推理时间较长。为此,本文提出 D-IMF,其中随机过程的学习被替换为仅在离散时间内学习几个转移概率,它可通过 DD-GAN 实现,从而仅用几步实现与 IMF 相同质量的无监督域迁移原创 2024-05-26 17:34:37 · 1232 阅读 · 0 评论 -
arXiv AI 综述列表(2024.05.13~2024.05.17)
公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)每周末更新,完整版进群获取。Q 群在群文件,VX 群每周末更新。原创 2024-05-18 03:16:31 · 1136 阅读 · 0 评论 -
(2024,MambaOut,Mamba 适合长序列,区分指标,不适合分类,适合检测和分割)视觉真的需要 Mamba 吗?
Mamba 非常适合具有长序列和自回归特征的任务。本文提出了一个指标来判别序列是否是长序列本文。它通过堆叠 Mamba 块并移除 SSM,构建了 MambaOut 模型,来验证 Mamba 在分类、检测和分割等视觉任务中的适用性。原创 2024-05-14 19:32:01 · 1934 阅读 · 2 评论 -
(2024,KAN,MLP,可训练激活函数,样条函数,分层函数)Kolmogorov–Arnold 网络
MLP具有固定的激活函数和可学习的权重,而KAN没有线性权重,而是使用双层的、由样条函数组合的、可学习的激活函数。相比于MLP,KAN具有更好的可解释性,且使用更少的参数打到与MLP相同或超越的精度。但KAN的训练缓慢,扩展应用有待探索原创 2024-05-12 16:34:20 · 1851 阅读 · 0 评论 -
(2024,SD,条件 GAN,蒸馏,噪声到图像翻译,E-LatentLPIPS)将扩散模型蒸馏为条件 GAN
本文将预训练的多步扩散模型蒸馏为一个使用条件 GAN 和感知损失训练的一步生成器。它将扩散蒸馏视为一种配对的图像到图像翻译任务,使用 ODE 轨迹的噪声到图像对。使用的感知损失是E-L-LPIPS,它直接在潜在空间操作,无需解码到像素空间原创 2024-05-10 18:28:46 · 922 阅读 · 1 评论 -
(2024|ICML PMLR,强化学习,动态决策,网络跳过,质量和计算的权衡)可切换决策:动态神经生成网络
自回归生成模型推理速度较慢。为解决这个问题,本文引入动态网络可切换决策,在保持模型性能的同时,显著提高推理效率。它利用强化学习,通过动态分配计算资源(自动决定跳过何处以及如何平衡质量和计算成本)来加速推理过程。原创 2024-05-09 18:15:12 · 917 阅读 · 0 评论 -
(2024,DONN,OCNN,复数域,交替的非线性激活层与振荡器层,复值反向传播)深度振荡神经网络
大脑中的感知、记忆和其他高级认知功能是通过大脑中同步振荡网络来实现的。由此启发,DONN由交替的静态的具有非线性激活的密集或卷积层和动态的振荡器层组成。它可被推广到CNN,称为OCNN。这两种网络可应用于信号和图像/视频处理中的各种基准问题原创 2024-05-09 16:54:44 · 998 阅读 · 0 评论 -
(2024,LSTM,Transformer,指数门控,归一化器状态,多头内存混合)xLSTM:扩展的 LSTM
xLSTM 引入指数门控,并修改 LSTM 的内存结构来扩展LSTM。sLSTM带有标量内存、标量更新和新的内存混合。完全可并行化的 mLSTM,具有矩阵内存和协方差更新规则(类似于Transformer的QKV)。原创 2024-05-08 20:11:29 · 1196 阅读 · 0 评论