自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(438)
  • 收藏
  • 关注

原创 (2023|ICCV|Meta,SAM,可提示(点、框、掩码)分割任务,数据引擎和数据集/SA-1B)分割一切

本文开发一个可提示的模型 SAM,并设计数据引擎构建一个广泛的数据集,通过一个能实现强大泛化能力的任务进行预训练,从而通过提示工程,解决新数据分布上的各种下游分割问题。

2026-03-24 20:10:20 69

原创 (2026|MBZUAI,构建 PIXAR 基准,像素差异图和基于阈值的掩码,VLM,分类/分割/检测)从 Mask 到像素和意义:VLM 图像篡改的新分类法,基准和度量

本文将 VLM 篡改检测重新定义为基于像素、融合意义与语言的任务,通过逐像素差异图获取可控标签。本文发布了高保真、大规模的 PIXAR 基准,提供原始/篡改图像、丰富元数据、差异图、推荐像素标签及语言描述,引入了一个像素感知的训练框架,用于定位、语义分类和自然语言描述生成。

2026-03-24 19:54:59 99

原创 (2026|复旦,多头专家混合/MH-MOE,特征切片,头私有/分片路由和聚合)多头注意力是 Transformer 中灾难性遗忘的根源

MoE Transformer在持续学习下仍然可能灾难性遗忘的原因出现在路由之前:多头注意力将头结构化的信号混合成一个单一的路由器输入,因此路由是由特征共现而非可分离的头通道驱动的。对此,本文提出 MH-MoE,它对头级子表示进行路由以减少混合,从而改善知识保留

2026-02-27 14:49:55 884

原创 (2026|清华&腾讯混元,DiT 加速,基于路由器的自适应块跳过和 MLP 宽度缩减,基于块级缓存的中间特征重用)弹性 DiT

本文提出了弹性 DiT,一个用于 DiT 的自适应加速框架,能在保持生成质量的同时有效提升效率。它为每个 DiT 块配备了一个轻量级路由器,每个路由器自适应地决定是否跳过相应的块。如果块未被跳过,路由器则预测该块内最佳的 MLP 宽度缩减比例。

2026-02-25 22:49:48 561

原创 (2026|NVIDIA,DreamZero,泛化,IDM动作/自回归视频联合预测,解耦推理/动作执行,解耦视频/动作噪声调度,DiT,流匹配)世界动作模型是零样本策略

本文提出 DREAMZERO,一个建立在预训练视频扩散骨干上的世界动作模型。与 VLA 不同,它通过预测未来世界状态和动作来学习物理动态,使用视频作为世界如何演变的密集表征。通过联合建模视频和动作,它能够有效地从异构机器人数据中学习多样化技能,而不依赖重复演示

2026-02-24 21:24:49 1293

原创 (2025|JSAI|东京大学,连续/无限专家,基于 mask 的 FFN 调制)∞-MoE:将混合专家模型推广到无限专家模型

本文提出 ∞-MoE,它将 MoE 从有限的专家集合扩展到连续(实际上无限)的专家空间。它仅为每个 token 激活少数几个采样专家,保持了类似 MoE 的效率,同时提高了准确性。在 GPT-2 Small 和 Medium 上,∞-MoE 优于 Switch Transformer 和标准 MoE。

2026-01-28 22:35:29 645

原创 (2026|TikTok,HUVR,隐性神经表示/INR,超网络,用于识别和生成的统一表示,Transformer,FC)INR 促进统一的通用视觉编码

HUVR 是一种用于统一通用图像表示的 INR 超网络,不仅在图像识别的无监督学习方面与先前工作相比具有优势,还产生了支持识别和重建的压缩 TinToks。本文展示了该方法在各种数据集和嵌入大小下对于分类、分割和生成等任务的实用性。

2026-01-27 12:34:06 634

原创 (2026|北大 & Deepseek,Engram 模仿模型深度增加,MoE,分词器压缩,多头哈希稀疏检索,mHC)基于可扩展查找的条件记忆:LLM 稀疏性

本文介绍条件记忆作为对主流条件计算范式的互补稀疏性维度,旨在解决通过动态计算模拟知识检索的低效问题。本文通过 Engram 模块实例化了这一概念。通过构建稀疏性分配问题,本文发现了一个 U 形缩放定律,证明了稀疏容量在 MoE 专家和 Engram 记忆之间的混合分配严格优于纯 MoE 基线。在此定律指导下,本文将 Engram 扩展到 270 亿参数,在多个领域实现了卓越性能。

2026-01-25 18:58:03 656

原创 (2026|谢赛宁 & LeCun & NYU,变分自编码器/VAE,表示自编码器/RAE,DiT,大规模文生图)利用 RAE 扩展文本到图像 DiT

本研究探索了将表示自编码器扩展到文本到图像生成。研究发现:数据规模提升能改善整体保真度,但特定领域(如文本)需要有针对性的数据组合。扩展简化了 RAE 的设计:维度依赖的噪声调度仍然关键,但如宽 DDT 头等架构修改在模型容量增加时收益递减。基于 RAE 的扩散模型在收敛速度和生成质量上始终优于最先进的 VAE 基线,且在微调时更不容易过拟合。通过使理解和生成在共享的表示空间中运行,RAE 为统一模型(如本研究展示的潜在空间测试时缩放)开辟了新的可能性。

2026-01-24 15:00:28 694

原创 (2025|Deepseek,残差连接,残差映射投影,迭代归一化,核融合,混合精度,中间激活重新计算)mHC:流形约束的超连接

虽然超连接提出的扩宽残差流宽度和多样化连接能带来性能增益,但这些连接的无约束性质会导致信号发散。这种破坏损害了跨层信号能量的守恒,引发训练不稳定性并阻碍深度网络的可扩展性。为解决这些挑战,本文引入了流形约束超连接,一个将残差连接空间投影到特定流形上的通用框架。

2026-01-20 11:12:43 751

原创 (2026|ICLR|阿里,多模态 RoPE/MRoPE,交错 MRoPE/MRoPE-I,全频带分配,空间重置解耦时空维度)重新审视 VLM 中的多模态位置编码

本文确定了稳健多模态 RoPE 的三个关键设计考量:位置连贯性、全频带利用和保持预训练 LLM 的文本先验。基于这些见解,本文提出了两种即插即用的 RoPE 变体:多头 RoPE 和交错 MRoPE。两种方法均遵循本文确定的准则,有效解决了常见失败模式,并在通用及细粒度多模态理解任务上取得了显著性能。

2026-01-14 14:06:02 803

原创 (2024|Neurocomputing|苏剑林 & 追一科技,RoPE,位置编码,旋转矩阵,长程衰减)RoFormer:带旋转位置嵌入的增强 Transformer

本文提出了旋转位置嵌入,一种通过旋转矩阵在自注意力中编码相对位置依赖的新方法。理论分析表明相对位置可通过向量旋转自然表达。实验证明,RoPE 能加速预训练收敛,并在多项任务,尤其是长文本任务上,取得更好的性能。

2026-01-13 14:27:06 777

原创 (2026|阿里,三阶段训练,对比学习,蒸馏,嵌套表示,量化感知)Qwen3-VL-Embedding和Qwen3-VL-Reranker:统一的多模态检索和排序框架

本文提出用于多模态检索 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker。通过结合多阶段训练流水线、高质量多模态数据,并充分利用Qwen3-VL基础模型的多模态知识和通用理解能力,该系列在广泛的多模态检索基准上取得了前所未有的性能,同时保持了强大的纯文本能力。此外,通过嵌套表示学习和量化感知训练,该系列具备优异的实际部署特性,能在保持高性能的同时显著降低下游任务的计算成本。

2026-01-11 14:39:08 1097

原创 (2025|阿里,增强的位置编码/交错式 MRoPE,DeepStack 跨层融合,显式视频时间戳)Qwen3-VL 技术报告

Qwen3-VL 通过融合高质量的多模态数据迭代与架构创新(如增强的交错式多维相对位置编码、DeepStack视觉-语言对齐机制,以及基于文本的时间定位技术),在广泛的多模态基准测试中取得了前所未有的性能表现,同时保持了强大的纯文本处理能力

2026-01-10 15:56:19 1130

原创 (2025|NIPS Ws|北大 & MIT,模型规模,思维链/CoT,任务难度)影响 LLM 有效深度的因素

本文对可能影响大语言模型有效深度的因素进行了全面研究,包括模型规模、训练策略和任务难度。首先,有效深度比率随模型规模增大而大致保持恒定。其次,尽管长链思维模型展现出增强的推理能力,但其有效深度并未增加。第三,有效深度在不同任务难度间保持一致,表明模型不存在基于计算需求的动态深度分配。这些结果表明,大语言模型未能充分利用其架构深度。

2026-01-08 15:06:30 580

原创 (2025|天大,LLM 中存在情感机制,情感识别和分离,情感-原因-方式数据集,世界模型)大型情感世界模型

本研究强调了将情感推理整合到世界模型中的重要性,并提出了大型情感世界模型作为迈向此目标的有效一步。通过利用EWH数据集及情感感知建模框架,LEWM能更好地将潜在情感表征与人类情感理解对齐。

2026-01-07 16:06:10 1191

原创 (2025|上海 AI Lab & 南大,图像到图像生成,DiT,流匹配)DiffThinker:基于扩散模型的生成式多模态推理

DiffThinker 是一种生成式多模态推理范式。通过运用扩散模型,将多模态推理从传统的以文本为中心的符号映射重构为原生的生成式图像到图像任务,使模型能够在视觉空间中进行推理,获得更优越的逻辑一致性与空间精确度。

2026-01-06 19:05:49 1027

原创 (2025|中科大 & 华为,径向并行自回归生成,动态上下文更新/错误修正)从序列到空间:重排序自回归模型以实现高效视觉生成

RadAR 旨在解决传统自回归模型在效率和灵活性方面的限制。它采用独特的由内向外、径向并行的解码策略,确保了空间一致性。此外,RadAR 能够在推理过程中动态修正现有的生成错误,从而在保持高视觉质量的同时,显著减少图像生成所需的推理步骤数。

2026-01-05 16:38:23 1148

原创 (2025|MIT,RLM,LLM 递归调用,提示作为变量,REPL,长上下文,外核计算/out-of-core)递归语言模型

本文介绍了递归语言模型,这是一种用于语言模型的通用推理框架,它将输入上下文卸载,并使语言模型能够在提供输出之前递归地子查询语言模型。本文探索了该框架的一个实例化,将上下文作为内存中的变量卸载到 Python REPL 环境中,使 LLM 能够在代码和递归 LLM 调用中,而不仅仅是在 token 空间中,对其上下文进行推理。

2026-01-05 16:38:15 688

原创 (2025|阿里-通义,自我演进数据管道,本机设备-云协作,在线 RL)MAI-UI:以现实世界为中心的基础 GUI Agent

MAI-UI 是一个基础 GUI agent 家族,用于解决 GUI agent 现实部署的挑战。本文引入了三个主要组件:一个扩展至包含用户交互和 MCP 工具调用的自我演进数据管道、一个根据任务状态和数据敏感性路由执行的本机设备-云协作系统,以及一个具有先进系统优化的在线 RL 框架。

2025-12-30 18:12:18 843

原创 (2025|北交 & 字节,VLM 精练提示 + DiT 生成,思维链,SepGRPO)ThinkGen:面向视觉生成的通用思维

ThinkGen 是一种思维驱动的框架,能够自动将思维链推理应用于多样化的生成任务。该方法采用解耦的 MLLM-DiT 架构,并通过 SepGRPO进行训练,使其能在生成前制定高质量规划。

2025-12-30 18:07:21 593

原创 (2025|上交,Agent 泛化,VLM 推理 + 世界模型推演 + RL,PhysCode)IPR-1:交互式物理推理器

IPR 是一种通过将以物理为中心的潜在动作空间与预测引导的 VLM 优化相结合来用预测强化物理推理的范式,使得物理和因果规律直接从交互后果中提炼,而非来自静态语料库。IPR 相较于基于 VLM、基于预测和基于强化学习的基线都产生了稳健的增益,并显示出对未见游戏的强大零样本迁移能力。

2025-12-29 18:23:41 717

原创 (2025|Nvidia & 斯坦福,VLA,游戏视频-动作数据集,流匹配)NitroGen:面向通用游戏智能体的开放式基础模型

NitroGen 是一种扩展视频游戏智能体基础预训练的方法,利用公开数据源构建了网络规模的视频-动作数据集,并通过成功训练多游戏策略实证了其有效性。NitroGen 在微调实验中显示出积极的泛化迹象。

2025-12-29 18:23:26 694

原创 (2025|NUS,Diffusion LLM,掩蔽-预测)LLM 和 MLLM 中的离散扩散:综述

本文对离散扩散语言模型和离散扩散多模态语言模型进行了系统性的综述。与自回归模型不同,它们采用基于全注意力的多 token 并行解码范式和基于去噪的生成策略,支持并行生成、细粒度输出控制和动态感知,是 AR 模型难以实现的

2025-12-22 17:30:59 1028

原创 (2025|NUS&人大&复旦&北大,Agent,LLM,RAG,上下文,记忆形式/功能/动态)AI Agent时代的记忆:综述

尽管近两年 agent memory 相关研究爆发式增长,但该领域呈现出明显的概念碎片化问题。基于此,本文提出以 “形式–功能–动态” 为核心的统一分析框架,系统梳理 agent memory 的结构形态、功能角色与演化机制。

2025-12-18 12:27:04 1087

原创 (2025|Meta FAIR,自回归语言建模+非自回归流匹配视频建模,VLM 生成)TV2TV:交错式语言和视频生成的统一框架

本文介绍了 TV2TV,一个将视频生成分解为交错式文本和视频生成过程的统一建模框架。通过以交错方式生成文本和视频,可将视频生成的大部分语义复杂性卸载到模型的文本生成组件,并实现了生成过程中更灵活有效的用户控制。

2025-12-17 10:37:56 912

原创 (2025|墨尔本 & 悉尼大学,VLM,思维链,可解释性,注意力头,认知 )探究视觉语言模型中注意力头的作用:推理模块的证据

本文提出了一个可解释性框架,将 VLM 中的注意力头与多模态推理中涉及的人类感知和认知功能联系起来。为此,本文引入了 CogVision 数据集,并应用基于探针的分析来识别支持这些功能的专门化头。

2025-12-15 15:36:58 721

原创 (2025|OpenAI,GPT-5.X版本对比,改进,评估,提示设置,安全性,生产系统与多工具Agent工作流)GPT-5.2

GPT-5.2 专注于企业级生产系统与多工具 Agent 工作流,在专业知识处理、编程、科学推理等任务上表现显著提升。GPT-5.2改进了结构化思维、指令遵循和工具调用能力,同时降低冗余和幻觉风险。

2025-12-13 16:23:55 1940

原创 (2025|GigaAI,世界模型,合成VLA数据,RGB-D,具身 CoT)GigaBrain-0:基于世界模型的VLA模型

本文通过利用世界模型生成的数据,克服了真实机器人数据收集的可扩展性和多样性限制,在从灵巧操作到长时程移动操作的广泛真实世界机器人任务中实现了强大的泛化能力。RGBD 输入建模和具身思维链监督等关键架构创新进一步增强了空间推理和顺序决策能力

2025-12-12 14:53:59 779

原创 (2025|GigaAI,世界模型数据引擎,视频生成,3D 重建,具身智能,VLA 数据生成)GigaWorld-0

本文提出了 GigaWorld-0,一个可扩展且可控的世界模型,旨在作为具身 AI 的高保真数据引擎。通过将逼真的视频生成与几何一致、物理合理的3D场景仿真相结合,GigaWorld-0 能够高效合成多样化、指令驱动的交互数据

2025-12-11 15:43:44 1054

原创 (2025|DeepSeek-AI,Deepseek 稀疏注意力,改进的 GRPO,大规模合成智能体)DeepSeek-V3.2

本研究提出 DeepSeek-V3.2,使用 DSA 降低注意力复杂度,同时在长上下文场景保持性能;通过改进的 GRPO 机制使大规模 RL 训练稳定可扩展;使用大规模合成智能体任务生成复杂任务,使模型在真实工具链任务中具备强鲁棒性与泛化性

2025-12-09 14:47:11 1494

原创 (2025|Adobe,VLM 作为视觉编码器和文本重写器,DiT 生成)UniFusion:VLM 作为图像生成中的统一编码器

本文提出 UniFusion 框架,旨在 通过使用单一冻结的视觉语言模型作为统一编码器,简化图像生成模型的多模态建模过程。其核心思想是利用 VLM 的共享语义空间,统一文本与图像的表示学习,提升生成模型的多模态推理与知识迁移能力。

2025-12-06 11:24:25 867

原创 (2025|AAAI|天大,旋转位置编码,长程衰减,位置插值分辨率下降)3D-RPE:通过 3D RoPE 增强长上下文建模

本文提出的 3D-RPE 为位置编码引入第三维角度旋转机制,有效解决了 RoPE 在长上下文建模中的两个核心问题:长程衰减与插值精度下降。实验在多个任务上表明该方法兼具理论创新与实用效果

2025-10-15 09:54:24 2457

原创 (2025|南大,LLM,强化学习,离线逆强化学习,下一 token 预测,内生奖励)在 LLM 中发现通用奖励模型

本文发现,一个强大的通用奖励模型并非需要构建,而是可以挖掘出来的,因为它潜伏在任何通过标准下一 token 预测训练的语言模型中。这种内生奖励并非启发式的,而是理论上等同于通过离线逆强化学习学到的奖励函数,它可带来优越于基础模型的策略

2025-07-06 15:22:51 1338

原创 (2025|ICML|丹麦技术大学,潜在扩散/LDM,隐式神经表示/INR,超网络)Hyper-Transforming LDM

本文提出 LDMI,结合了 INR 的表达力与 LDM 的生成能力。HD 解码器使用 Transformer 架构支持概率建模,克服了 MLP 超网络的扩展性与确定性局限。LDMI 可灵活迁移已有模型至函数生成任务,适用于图像、3D、气候等多模态数据,支持高分辨率重建与生成

2025-07-04 13:53:09 1430

原创 (2025|CVPR|Reichman,扩散,图像拼接,拼接约束,相似性约束,拼接分数/TS)拼接扩散

图像拼接是将图像在边缘无缝连接,以构建连续、统一视觉场景。本文提出了 Tiled Diffusion,支持从自拼接到复杂多对多连接的多种拼接场景,实现了拼接过程的自动化,消除了人工干预的需要,并在多个应用中提升了创作可能性。

2025-07-01 13:47:57 1507

原创 (2025|微软 & 北大 & 清华,下一 token 推理 / NTR,下一 token 预测,强化学习,LLM)强化预训练

本文介绍强化预训练 (RPT),这是一种用于预训练大型语言模型的全新范式。通过将下一个标记预测构建为可验证的推理任务,并应用基于正确性的奖励机制的强化学习,RPT 允许 LLM 在预训练过程中利用扩展计算来构建更强大的基础推理能力。

2025-06-30 14:40:36 886

原创 (2025|中科大 & CASIA,持续学习,谱感知整合,奇异值分解,无监督查询正则化)LLaVA-c:持续改进的视觉指令微调

现有持续学习方法往往优先考虑任务特定性能,忽视因过拟合特定指令导致的基础模型退化,从而削弱了模型的通用能力。本文提出 LLaVA-c,对 LLaVA-1.5 进行了两项改进:引入谱感知整合以提升任务平衡性,引入无监督查询正则化以防止基础模型退化。

2025-06-25 17:45:37 700

原创 (2025|Nature Electronics|清华&港大,脑机接口,无人机操控)基于忆阻器的脑机接口自适应神经形态解码器

本研究首次在 BCI 系统中实现了忆阻器阵列级的 “硬件级一步解码”。该解码器用于执行脑控四自由度无人机飞行任务。通过结合人脑认知学习机制与芯片在线更新,实现了能耗低、响应快、可长期稳定运行的脑机交互系统。提出的协同进化框架展现了未来神经形态计算与认知智能结合的潜力,为 BCI 系统从实验室走向实际应用提供了新方向。

2025-06-21 13:09:32 2058

原创 (2025|Nature|UC Davis,脑机接口,语音合成,Transformer)即时语音合成神经假体

本研究提出一种 “即时脑-语音” 神经假体系统,通过实时解码肌萎缩性侧索硬化症患者大脑中的神经活动,实现语音合成和音频反馈,恢复交流能力。不同于此前仅将神经信号转译为文字的方式,该系统可直接合成语音,包含语调、重音、旋律等副语言特征,即便缺乏训练用的真实语音数据,仍可实现较高质量的合成结果

2025-06-16 10:00:52 1124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除