自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(299)
  • 收藏
  • 关注

原创 (2024,Jamba1.5,ExpertsInt8量化,LLM,激活损失)大规模混合 Transformer-Mamba 模型

Jamba-1.5 是基于 Jamba 架构的新指令微调LLM。Jamba 能够在不同上下文长度中提供高吞吐量和低内存使用,同时保持与 Transformer 模型相同或更好的质量。它还引入了ExpertsInt8量化,来支持成本有效的推理

2024-08-23 14:18:14 941

原创 (2024,ReLU-Transformer,样条,Veronese 映射,Pierce–Birkhoff 猜想)注意力机制是平滑的三次样条

神经网络完全是线性样条的表现。由于线性样条的复合仍然是线性样条,要获得更复杂的函数,需要向神经网络引入一些其他东西,而注意力模块可最简单的起到这种作用:​通过组合两个注意力模块获得二次 Veronese 映射,这是最简单的非线性样条映射

2024-08-23 12:58:51 695

原创 (2024,KAN 2.0,MultKAN,kan-piler,树转换器,识别相关特征,揭示模块化结构,发现符号公式)

本文提出一个框架来协同 KAN 与科学。它强调三个应用:识别相关特征、揭示模块化结构以及发现符号公式。一些新功能:MultKAN:带有乘法节点的 KANs;kanpiler:将符号公式编译为 KAN 的编译器;​树转换器:将 KAN 转换为树图

2024-08-20 14:42:05 849

原创 (2024,Imagen 3 模型卡,定性和定量结果,LDM,Gemini)

Imagen3,是一种潜在扩散模型,可以根据文本提示生成高质量的图像。​它优于 SOTA 模型,但在某些任务上仍然存在不足,例如数值推理。此外,规模推理、组合短语和动作的提示、以及需要空间推理和复杂语言的提示对所有模型来说都很难

2024-08-14 12:53:45 618

原创 (2024,LDM,T2I到T2M,音乐与文本的CLIP对齐,multi-hot 文本编码,基于多时间分辨率LSTM的自编码器)

本文使用文本条件 LDM 生成鼓点。遵循CLIP,它在多模态网络中通过对比学习预训练来对齐文本和音乐的模态。它使用 multi-hot 文本编码替代文本编码器。它使用基于多时间分辨率LSTM的自动编码器替代图像编码器。

2024-08-07 13:55:02 667

原创 (2024,∞-Brush,无限维扩散,希尔伯特空间,超分辨率,跨注意力神经算子,线性注意)具有无限维度扩散模型的可控大图像合成

本文提出在无限维希尔伯特空间中的条件扩散模型,∞-Brush,用于可控的大图像合成。​此外,它利用带有跨注意力神经算子的条件去噪器来参数化去噪过程。该方法有效解决先前扩散模型的可扩展性限制,并保留了对生成输出的高度控制。

2024-08-03 13:20:57 617

原创 (2024|ICLR,∞-Diff,无限维平滑扩散,希尔伯特空间,超分辨率,多尺度架构)具有子采样平滑状态的无限分辨率扩散

​∞-Diff 采用非局部积分算子在希尔伯特空间进行映射,映射函数通过最小化每坐标重建损失来优化。它在随机采样的坐标子集上进行训练,并仅在这些位置对内容进行去噪,从而获得用于任意分辨率采样的连续函数。它使用平滑扩散来消除数据不规则性。

2024-08-03 13:13:18 917

原创 (2024,因果 Diffusion Forcing,扩散,自回归,噪声掩码,多噪声级别)下一 token 预测与全序列扩散

本文提出扩散强制,其中扩散模型被训练来去噪具有独立的每标记噪声级别的一组标记。它结合了下一标记预测模型和全序列扩散模型的优势:通过训练一个因果的下一标记预测模型,来生成一个或多个未来标记,而不用完全扩散过去的标记

2024-07-31 14:11:47 773

原创 (2024,LlamaGen,Llama,自回归下一token预测,模型扩展)自回归模型优于扩散:Llama 用于可扩展图像生成

本文介绍 LlamaGen,它将 LLM 的 “下一 token 预测” 范式应用于视觉生成领域。它重新审视了图像 tokenizer 的设计空间、图像生成模型的可扩展性属性及其训练数据质量。

2024-07-31 14:11:38 1123

原创 (2024,缩放定律,信息论,模型大小与数据的线性关系)神经缩放定律的信息论基础

本文基于信息理论来描述神经网络的缩放定律,通过对误差上界的分析观察到,数据和模型大小之间的最佳关系是线性的,最多有对数因子。

2024-07-30 12:59:17 1135

原创 (2024,LoRA压缩和多LoRA快速切换,联合对角化,重构误差)先压缩再提供服务:以极低的开销为数千个 LoRA提供服务

通常使用 LoRA 微调 LLM,但在 GPU 内存中存储成千上万的 LoRA 是不可行的。为此,本文考虑通过 SVD 对 LoRA 进行单独压缩,并提出将 LoRA 联合压缩到匹配 LoRA 专属缩放矩阵的共享基底​。

2024-07-30 12:59:13 713

原创 (2024,模型规模vs序列长度)Transformer 何时可以数到 n?

本文通过一个简单的例子(使用 transformer 计数)来展示​:当嵌入维度大于 token 数时,该任务可完成​;当嵌入维度小于 token 数时,该任务无法完成,除非 MLP 宽度随上下文大小增长​,但这是不实际的。

2024-07-29 14:37:10 747

原创 (2024,通用逼近定理(UAT),函数逼近,Kolmogorov–Arnold定理(KAT),任意深度/宽度的网络逼近)综述

本文讨论了关于神经网络逼近能力的各种定理,这些定理被称为 UAT。本文从函数逼近的初步结果开始,如泰勒/傅里叶/魏尔斯特拉斯逼近定理和KAT 等,系统地概述了 UAT。此外,本问还讨论了任意深度和宽度​神经网络的逼近能力。

2024-07-28 22:04:16 1009

原创 (2021|Nature,深度算子网络(DeepONet),算子的通用逼近定理(UAT),逼近/优化/泛化误差)

UAT 仅保证一个足够大的网络有较小的逼近误差,并且没有考虑重要的优化和泛化误差。为了在实践中实现这一定理,本文提出 DeepONet,以从相对较小的数据集中学习算子。它包含一个编码输入函数的主干网络,和一个用于编码输出函数的位置的分支网络

2024-07-19 17:01:49 1261

原创 (2024,变分 SSM(VSSM),自回归 VSSM,并行训练和生成,VAE)利用变分 SSM 并行化自回归生成

​本文提出VSSM,一种VAE,其编译码器均为SSM。由于采样潜变量并使用解码它们可以并行化,因此训练和生成都可并行进行。本文还提出一种以部分实现(例如,提示)为条件的并行生成方法:自回归VSSM,可在语言生成任务中根据部分序列进行条件生成

2024-07-12 19:59:11 713

原创 (2024,RotRNN,SSM,旋转矩阵,LRU,初始化和归一化)使用旋转对长序列进行建模

SSM的实现涉及矩阵幂的计算,如果没有仔细的初始化和归一化,可能会导致数值不稳定的状态值。为简化初始化,LRU引入了由递归状态矩阵的特征分解驱动的对角矩阵参数化。但归一化 LRU 层依赖于限制性假设,并且算法的实际实现偏离了理论推导。本文通过将状态矩阵参数化为旋转矩阵,从而在归一化时使用更少的限制性假设,并允许实现忠实于理论动机

2024-07-12 19:56:46 930

原创 (2024,频域 SSM,SSM 的学习动态,时域递归到频域调制标量乘法)深度 SSM 中的学习动态理论

本文关注 SSM 在频域中的学习动态,推导了在线性 SSM 中基于平方损失进行梯度下降的动态解析形式,得出结论:更强的输入输出协方差将导致更快的收敛(对于任何给定的序列数据,其最强的协方差结构将首先被学习到);通过使用更多潜在状态维度来参数化 SSM 可以加速学习收敛

2024-07-11 15:25:01 925

原创 (2024,无分类器引导 CFG,独立条件引导 ICG,时间步引导 TSG)没有训练,没有问题:重新思考用于扩散模型的 CFG

本文重新审视 CFG,并提出 ICG:在训练好的条件扩散模型中用独立条件替换条件向量,来估计无条件分布的得分,而无需在训练过程中学习无条件模型。受此启发,本文还提出 TSG,展示了扩散模型学习到的时间步信息可以用于提高生成质量,即使对于无条件模型也是如此

2024-07-11 15:13:27 1035

原创 (2024,测试时训练(TTT),线性注意力,RNN,嵌套循环)学习(在测试时学习):具有表达性隐藏状态的 RNN

​通过使隐藏状态成为一个机器学习模型,并将更新规则设为自监督学习的一步,本文将监督学习表述为学习如何学习,包含两个嵌套循环。外循环与常规训练相同。外循环的参数是内循环的超参数。由于隐藏状态在测试序列上也会进行训练更新,这些层被称为TTT层

2024-07-10 15:11:40 2959

原创 (2024,稀疏 MoE,大量小专家,参数高效专家检索 PEER,product key 检索)混合百万专家

稀疏 MoE 可解耦模型大小与计算成本,且更细粒度的 MoE 具有更好的性能。基于此,本文介绍 PEER 层,利用乘积键技术从大量小专家中进行稀疏检索。在语言建模的实验表明,PEER 层在性能与计算的权衡中优于密集 FFW 和粗粒度 MoE

2024-07-08 15:11:45 750

原创 (2024)KAN: Kolmogorov–Arnold Networks:评论

KAN 有足够的贡献,值得发表。但一些声明需要弱化,解释需要澄清,并且需要与基于样条的神经网络进行比较。

2024-07-05 16:28:59 1183

原创 (2024,DDPM,DDIM,流匹配,SDE,ODE)扩散:基础教程

本文的目标是尽可能简单地教授扩散。第一节介绍扩散的基本原理。第二节和第三节展示如何构建随机和确定性扩散采样器。第四部分介绍了密切相关的流匹配,可看作是扩散的推广。​第五节,强调实践中最重要的一些设计选择,包括采样器、噪声时间表和参数化方法。

2024-06-30 21:11:40 1996

原创 (2024,RNN,梯度消失和爆炸,记忆诅咒,重参数化和动态学习率,权重矩阵对角化,复值 RNN)梯度消失和爆炸并不是故事的结局

由于RNN的迭代性质,即使网络动态保持稳定,随着网络记忆的增加,也可能会出现梯度消失或爆炸。重新参数化和自适应学习率在实践中可以有效地缓解这种行为,且对递归进行对角化可简化这两者。学习复特征值有助于减少模型的参数量、降低 loss,且仅略微降低了模型的表达能力,但由于其难以学习,在最近的大多数 SSM 中,复数未被发现有用。

2024-06-27 21:21:52 1019

原创 (2024,稀疏高秩适配器(SHiRA),适配器快速切换和多适配器融合,稀疏掩码,稀疏高秩且正交的适配器,移动场景部署)

SHiRA可解决LoRA在快速切换适配器时的面临问题以及多适配器融合时概念丢失的问题。它直接微调1-2%的基模型权重,并冻结其他权重,获得一个高度稀疏的适配器。它还设计特殊的稀疏掩码,获得近乎正交的适配器权重,从而实现多适配器融合

2024-06-26 19:33:39 958

原创 (2024,频域 LoRA,DFT,DCT,自适应门控,基于适配器组合的图像编辑)FouRA:傅里叶 LoRA

投影到低秩子空间并投影回来容易导致信息丢失。为此,FouRA将输入转换到包含紧凑表示的具有解相关能力的频域。​它使用自适应门控机制进行秩选择,从而可增强微调模型的泛化能力。基于频域解相关能力,可通过组合多个适配器来进行域迁移和图像编辑

2024-06-26 16:09:45 1053

原创 (2024,RWKV-CLIP,VLM,表示学习,通道混合和空间混合,基于 LLM 的标题精练):强大的视觉语言表示学习器

RWKV-CLIP 是 RWKV 驱动的视觉语言表示学习模型。它采用了双塔架构,具有类似于 Transformer 的块堆叠编码器,每个块由一个空间混合模块和一个通道混合模块组成。此外,它使用LLM来获得精炼的图像描述。

2024-06-21 19:41:22 1115

原创 (2024,Vision-RWKV,线性复杂度双向注意力,四向标记移位)通过类似 RWKV 的架构实现高效且可扩展的视觉感知

VRWKV 采用双向注意力,并通过 RWKV 的指数衰减机制,使全局注意力的复杂度从二次降低到线性。四向标记移位可缓解一维衰减与二维图像中的邻近关系不对齐的问题。与 ViT 相比,它复杂度低,在处理高分辨率图像时表现出色,无需窗口操作

2024-06-21 19:32:01 1144

原创 (2024,示例记忆,模型记忆,遗忘,差分评估,概率评估)深度学习中的记忆:综述

深度神经网络(DNNs)驱动的深度学习(DL)已经在各个领域引发了革命性变化,但理解 DNN 决策和学习过程的复杂性仍然是一个重大挑战。最近的研究发现了一个有趣的记忆现象,即DNN 倾向于记住示例中的具体细节,而不是学习一般图样(pattern),这会影响模型的泛化能力、安全性和隐私性。这引发了关于 DNN 泛化性质及其易受安全漏洞影响的关键问题。在本次调查中,我们提出了一个系统的框架,根据泛化和安全/隐私领域组织记忆的定义,并总结了在示例和模型级别的记忆评估方法。

2024-06-11 17:08:25 993 1

原创 (2024,选择性遗忘,积极遗忘,消极遗忘)机器学习及其他领域的“遗忘”:综述

遗忘是一种适应性功能,而非缺陷,它可以增强学习过程并防止过拟合。遗忘包括选择性遗忘和损害性遗忘(灾难性遗忘)。本文关注前者,即有选择地忽略无关或噪声数据,有助于优化模型的内存利用,提高其概括能力,并增强其对不同数据集和任务的适应性

2024-06-11 17:07:48 721

原创 (2024,自监督 ViT,全监督 ViT,损失可视化,MAE,RC-MAE,自蒸馏,EMA)可视化自监督 ViT 的损失景观

与基于分类任务的损失景观可视化不同,本文通过计算预训练任务损失来可视化 ViT 的损失景观,观察到自监督 ViT 比完全监督 ViT 具有更平滑和更宽的整体损失曲率,且自蒸馏架构(即 EMA 教师)有助于扩展凸区域,加速收敛速度。

2024-06-09 18:02:25 874

原创 (2024,扩散,DMP,提示混合,动态门控,阶段特异性,微调)通过混合提示进行扩散模型修补

本文提出扩散模型修补(DMP),可提升已收敛的预训练扩散模型的性能且仅增加微量参数。DMP 保持原始模型冻结,并利用动态门控将一组时间步特定的可学习提示集成到每个时间步的模型行为中,根据去噪过程中的当前时间步(或噪声水平)自适应地组合提示。

2024-06-09 17:57:53 713

原创 (2024,Vision-LSTM,ViL,xLSTM,ViT,ViM,双向扫描)xLSTM 作为通用视觉骨干

ViL 将 xLSTM 架构应用于视觉任务。它首先通过共享的线性投影将图像分割成不重叠的补丁,然后为每个补丁标记添加可学习的位置嵌入。它交替地处理补丁标记序列。奇数模块按行从左上角处理到右下角,而偶数模块从右下角处理到左上角。相比于 ViT 和 ViM,ViL 有一致地更好的性能。

2024-06-08 18:26:17 1264

原创 (2024,ViT,小波变换,图像标记器,稀疏张量)基于小波的 ViT 图像标记器

本文使用基于小波的图像标记器(tokenizer)来代替标准 ViT 的补丁卷积标记器,从而在不改变 ViT 架构的情况下提高了训练吞吐量和 top-1 精度。新标记器可为非均匀网格上的图像标记和超分辨率等方向提供新视角。

2024-06-07 17:13:03 959

原创 (2022,扩散模型,评分函数,数据流形的内在维度,SVD)使用扩散模型估计数据流形的维度

评分函数是有噪目标分布的对数密度梯度,且在低噪时指向数据流形。基于此,本文使用训练好的扩散模型来估计流形维度:采样从 x0 扩散的样本并评估分数向量,将其组成矩阵后计算SVD,则数据分布的内在维度为消失的奇异值的数量​。

2024-06-04 04:31:32 1011

原创 (2024|ICML,Mamba2,SSD,SSM,SMA,矩阵变换,张量收缩,张量并行)Transformer 是 SSM

本文提出 SSD 框架,它使用两种表示序列模型的框架(矩阵变换和张量收缩)揭示了 SSM 与结构化掩码注意力的对偶性​。基于此,它修改 Mamba 模块,来实现张量并行​,并结合修改的 Mamba 模块与 SSD,形成可并行的 Mamba2

2024-06-04 04:31:26 2247

原创 (2024,扩散,去噪调度,维度,误差,收敛速度)适应基于分数的扩散模型中的未知低维结构

在DDPM中,去噪步骤中误差依赖于高维环境维度d。然而基于分数的扩散模型的目标分布(维度k)集中于或接近其所在的高维空间中的低维流形。一个合理的推测是,DDPM 采样器的收敛速度实际上取决于k而非d。当前理论理解仍然不足​。本文通过独特设计的去噪系数(调度),使去噪误差和收敛速度与k而不是d有​关。

2024-06-02 20:44:38 1041

原创 (2024,Flag-DiT,文本引导的多模态生成,SR,统一的标记化,RoPE、RMSNorm 和流匹配)Lumina-T2X

Lumina-T2X是基于流的大型DiT,它统一了不同模态在各种时空分辨率下的表示,从而实现文本引导的任何分辨率、宽高比和长度的多模态灵活生成。RoPE、RMSNorm 和流匹配增强了其稳定性、灵活性和可扩展性​。

2024-06-01 23:01:28 1242

原创 (2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少

LoRA的性能显著低于全量微调,但它能缓解对源域的遗忘。与权重衰减和丢弃相比,LoRA 提供了更强的正则化;它还有助于保持多样化生成。​全量微调学习的扰动的秩比典型的 LoRA 配置高 10-100 倍,这可能解释了一些报告中的差距。

2024-06-01 19:34:43 983

原创 (2021,AFT,MHA,RWKV 基础,线性内存复杂度)无注意力的 Transformer

AFT是一种高效的 Transformer变体:在 AFT 层中,键和值首先与一组学习到的位置偏置结合,其结果与查询按元素方式相乘。该方法消除了点积自注意力的需求,不需要计算和存储昂贵的注意力矩阵,同时保持了查询和值之间的全局交互。

2024-06-01 16:59:42 682

原创 Arxiv AI 综述列表(2024.05.27~2024.05.31)& VLM

随着大型语言模型(LLM)近来的流行,人们已经尝试将它们扩展到视觉领域。从拥有可视化助手指导我们穿越陌生环境到仅使用高级文本描述生成图像的生成模型,视觉语言模型(VLM)的应用将显著影响我们与技术的关系。然而,有许多挑战需要解决,以提高这些模型的可靠性。虽然语言是离散的,但视觉在一个更高维度的空间中演化,其中概念并不总是容易离散化的。为了更好地理解将视觉映射到语言背后的机制,我们介绍了这个视觉语言模型(VLM)的简介,希望能帮助任何希望进入该领域的人。

2024-05-31 19:29:37 888

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除