- 博客(429)
- 收藏
- 关注
原创 (2025|Deepseek,残差连接,残差映射投影,迭代归一化,核融合,混合精度,中间激活重新计算)mHC:流形约束的超连接
虽然超连接提出的扩宽残差流宽度和多样化连接能带来性能增益,但这些连接的无约束性质会导致信号发散。这种破坏损害了跨层信号能量的守恒,引发训练不稳定性并阻碍深度网络的可扩展性。为解决这些挑战,本文引入了流形约束超连接,一个将残差连接空间投影到特定流形上的通用框架。
2026-01-20 11:12:43
362
原创 (2026|ICLR|阿里,多模态 RoPE/MRoPE,交错 MRoPE/MRoPE-I,全频带分配,空间重置解耦时空维度)重新审视 VLM 中的多模态位置编码
本文确定了稳健多模态 RoPE 的三个关键设计考量:位置连贯性、全频带利用和保持预训练 LLM 的文本先验。基于这些见解,本文提出了两种即插即用的 RoPE 变体:多头 RoPE 和交错 MRoPE。两种方法均遵循本文确定的准则,有效解决了常见失败模式,并在通用及细粒度多模态理解任务上取得了显著性能。
2026-01-14 14:06:02
664
原创 (2024|Neurocomputing|苏剑林 & 追一科技,RoPE,位置编码,旋转矩阵,长程衰减)RoFormer:带旋转位置嵌入的增强 Transformer
本文提出了旋转位置嵌入,一种通过旋转矩阵在自注意力中编码相对位置依赖的新方法。理论分析表明相对位置可通过向量旋转自然表达。实验证明,RoPE 能加速预训练收敛,并在多项任务,尤其是长文本任务上,取得更好的性能。
2026-01-13 14:27:06
624
原创 (2026|阿里,三阶段训练,对比学习,蒸馏,嵌套表示,量化感知)Qwen3-VL-Embedding和Qwen3-VL-Reranker:统一的多模态检索和排序框架
本文提出用于多模态检索 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker。通过结合多阶段训练流水线、高质量多模态数据,并充分利用Qwen3-VL基础模型的多模态知识和通用理解能力,该系列在广泛的多模态检索基准上取得了前所未有的性能,同时保持了强大的纯文本能力。此外,通过嵌套表示学习和量化感知训练,该系列具备优异的实际部署特性,能在保持高性能的同时显著降低下游任务的计算成本。
2026-01-11 14:39:08
895
原创 (2025|阿里,增强的位置编码/交错式 MRoPE,DeepStack 跨层融合,显式视频时间戳)Qwen3-VL 技术报告
Qwen3-VL 通过融合高质量的多模态数据迭代与架构创新(如增强的交错式多维相对位置编码、DeepStack视觉-语言对齐机制,以及基于文本的时间定位技术),在广泛的多模态基准测试中取得了前所未有的性能表现,同时保持了强大的纯文本处理能力
2026-01-10 15:56:19
1021
原创 (2025|NIPS Ws|北大 & MIT,模型规模,思维链/CoT,任务难度)影响 LLM 有效深度的因素
本文对可能影响大语言模型有效深度的因素进行了全面研究,包括模型规模、训练策略和任务难度。首先,有效深度比率随模型规模增大而大致保持恒定。其次,尽管长链思维模型展现出增强的推理能力,但其有效深度并未增加。第三,有效深度在不同任务难度间保持一致,表明模型不存在基于计算需求的动态深度分配。这些结果表明,大语言模型未能充分利用其架构深度。
2026-01-08 15:06:30
551
原创 (2025|天大,LLM 中存在情感机制,情感识别和分离,情感-原因-方式数据集,世界模型)大型情感世界模型
本研究强调了将情感推理整合到世界模型中的重要性,并提出了大型情感世界模型作为迈向此目标的有效一步。通过利用EWH数据集及情感感知建模框架,LEWM能更好地将潜在情感表征与人类情感理解对齐。
2026-01-07 16:06:10
1019
原创 (2025|上海 AI Lab & 南大,图像到图像生成,DiT,流匹配)DiffThinker:基于扩散模型的生成式多模态推理
DiffThinker 是一种生成式多模态推理范式。通过运用扩散模型,将多模态推理从传统的以文本为中心的符号映射重构为原生的生成式图像到图像任务,使模型能够在视觉空间中进行推理,获得更优越的逻辑一致性与空间精确度。
2026-01-06 19:05:49
953
原创 (2025|中科大 & 华为,径向并行自回归生成,动态上下文更新/错误修正)从序列到空间:重排序自回归模型以实现高效视觉生成
RadAR 旨在解决传统自回归模型在效率和灵活性方面的限制。它采用独特的由内向外、径向并行的解码策略,确保了空间一致性。此外,RadAR 能够在推理过程中动态修正现有的生成错误,从而在保持高视觉质量的同时,显著减少图像生成所需的推理步骤数。
2026-01-05 16:38:23
999
原创 (2025|MIT,RLM,LLM 递归调用,提示作为变量,REPL,长上下文,外核计算/out-of-core)递归语言模型
本文介绍了递归语言模型,这是一种用于语言模型的通用推理框架,它将输入上下文卸载,并使语言模型能够在提供输出之前递归地子查询语言模型。本文探索了该框架的一个实例化,将上下文作为内存中的变量卸载到 Python REPL 环境中,使 LLM 能够在代码和递归 LLM 调用中,而不仅仅是在 token 空间中,对其上下文进行推理。
2026-01-05 16:38:15
631
原创 (2025|阿里-通义,自我演进数据管道,本机设备-云协作,在线 RL)MAI-UI:以现实世界为中心的基础 GUI Agent
MAI-UI 是一个基础 GUI agent 家族,用于解决 GUI agent 现实部署的挑战。本文引入了三个主要组件:一个扩展至包含用户交互和 MCP 工具调用的自我演进数据管道、一个根据任务状态和数据敏感性路由执行的本机设备-云协作系统,以及一个具有先进系统优化的在线 RL 框架。
2025-12-30 18:12:18
691
原创 (2025|北交 & 字节,VLM 精练提示 + DiT 生成,思维链,SepGRPO)ThinkGen:面向视觉生成的通用思维
ThinkGen 是一种思维驱动的框架,能够自动将思维链推理应用于多样化的生成任务。该方法采用解耦的 MLLM-DiT 架构,并通过 SepGRPO进行训练,使其能在生成前制定高质量规划。
2025-12-30 18:07:21
573
原创 (2025|上交,Agent 泛化,VLM 推理 + 世界模型推演 + RL,PhysCode)IPR-1:交互式物理推理器
IPR 是一种通过将以物理为中心的潜在动作空间与预测引导的 VLM 优化相结合来用预测强化物理推理的范式,使得物理和因果规律直接从交互后果中提炼,而非来自静态语料库。IPR 相较于基于 VLM、基于预测和基于强化学习的基线都产生了稳健的增益,并显示出对未见游戏的强大零样本迁移能力。
2025-12-29 18:23:41
687
原创 (2025|Nvidia & 斯坦福,VLA,游戏视频-动作数据集,流匹配)NitroGen:面向通用游戏智能体的开放式基础模型
NitroGen 是一种扩展视频游戏智能体基础预训练的方法,利用公开数据源构建了网络规模的视频-动作数据集,并通过成功训练多游戏策略实证了其有效性。NitroGen 在微调实验中显示出积极的泛化迹象。
2025-12-29 18:23:26
612
原创 (2025|NUS,Diffusion LLM,掩蔽-预测)LLM 和 MLLM 中的离散扩散:综述
本文对离散扩散语言模型和离散扩散多模态语言模型进行了系统性的综述。与自回归模型不同,它们采用基于全注意力的多 token 并行解码范式和基于去噪的生成策略,支持并行生成、细粒度输出控制和动态感知,是 AR 模型难以实现的
2025-12-22 17:30:59
962
原创 (2025|NUS&人大&复旦&北大,Agent,LLM,RAG,上下文,记忆形式/功能/动态)AI Agent时代的记忆:综述
尽管近两年 agent memory 相关研究爆发式增长,但该领域呈现出明显的概念碎片化问题。基于此,本文提出以 “形式–功能–动态” 为核心的统一分析框架,系统梳理 agent memory 的结构形态、功能角色与演化机制。
2025-12-18 12:27:04
865
原创 (2025|Meta FAIR,自回归语言建模+非自回归流匹配视频建模,VLM 生成)TV2TV:交错式语言和视频生成的统一框架
本文介绍了 TV2TV,一个将视频生成分解为交错式文本和视频生成过程的统一建模框架。通过以交错方式生成文本和视频,可将视频生成的大部分语义复杂性卸载到模型的文本生成组件,并实现了生成过程中更灵活有效的用户控制。
2025-12-17 10:37:56
854
原创 (2025|墨尔本 & 悉尼大学,VLM,思维链,可解释性,注意力头,认知 )探究视觉语言模型中注意力头的作用:推理模块的证据
本文提出了一个可解释性框架,将 VLM 中的注意力头与多模态推理中涉及的人类感知和认知功能联系起来。为此,本文引入了 CogVision 数据集,并应用基于探针的分析来识别支持这些功能的专门化头。
2025-12-15 15:36:58
675
原创 (2025|OpenAI,GPT-5.X版本对比,改进,评估,提示设置,安全性,生产系统与多工具Agent工作流)GPT-5.2
GPT-5.2 专注于企业级生产系统与多工具 Agent 工作流,在专业知识处理、编程、科学推理等任务上表现显著提升。GPT-5.2改进了结构化思维、指令遵循和工具调用能力,同时降低冗余和幻觉风险。
2025-12-13 16:23:55
1407
原创 (2025|GigaAI,世界模型,合成VLA数据,RGB-D,具身 CoT)GigaBrain-0:基于世界模型的VLA模型
本文通过利用世界模型生成的数据,克服了真实机器人数据收集的可扩展性和多样性限制,在从灵巧操作到长时程移动操作的广泛真实世界机器人任务中实现了强大的泛化能力。RGBD 输入建模和具身思维链监督等关键架构创新进一步增强了空间推理和顺序决策能力
2025-12-12 14:53:59
704
原创 (2025|GigaAI,世界模型数据引擎,视频生成,3D 重建,具身智能,VLA 数据生成)GigaWorld-0
本文提出了 GigaWorld-0,一个可扩展且可控的世界模型,旨在作为具身 AI 的高保真数据引擎。通过将逼真的视频生成与几何一致、物理合理的3D场景仿真相结合,GigaWorld-0 能够高效合成多样化、指令驱动的交互数据
2025-12-11 15:43:44
823
原创 (2025|DeepSeek-AI,Deepseek 稀疏注意力,改进的 GRPO,大规模合成智能体)DeepSeek-V3.2
本研究提出 DeepSeek-V3.2,使用 DSA 降低注意力复杂度,同时在长上下文场景保持性能;通过改进的 GRPO 机制使大规模 RL 训练稳定可扩展;使用大规模合成智能体任务生成复杂任务,使模型在真实工具链任务中具备强鲁棒性与泛化性
2025-12-09 14:47:11
1292
原创 (2025|Adobe,VLM 作为视觉编码器和文本重写器,DiT 生成)UniFusion:VLM 作为图像生成中的统一编码器
本文提出 UniFusion 框架,旨在 通过使用单一冻结的视觉语言模型作为统一编码器,简化图像生成模型的多模态建模过程。其核心思想是利用 VLM 的共享语义空间,统一文本与图像的表示学习,提升生成模型的多模态推理与知识迁移能力。
2025-12-06 11:24:25
798
原创 (2025|AAAI|天大,旋转位置编码,长程衰减,位置插值分辨率下降)3D-RPE:通过 3D RoPE 增强长上下文建模
本文提出的 3D-RPE 为位置编码引入第三维角度旋转机制,有效解决了 RoPE 在长上下文建模中的两个核心问题:长程衰减与插值精度下降。实验在多个任务上表明该方法兼具理论创新与实用效果
2025-10-15 09:54:24
2361
原创 (2025|南大,LLM,强化学习,离线逆强化学习,下一 token 预测,内生奖励)在 LLM 中发现通用奖励模型
本文发现,一个强大的通用奖励模型并非需要构建,而是可以挖掘出来的,因为它潜伏在任何通过标准下一 token 预测训练的语言模型中。这种内生奖励并非启发式的,而是理论上等同于通过离线逆强化学习学到的奖励函数,它可带来优越于基础模型的策略
2025-07-06 15:22:51
1285
原创 (2025|ICML|丹麦技术大学,潜在扩散/LDM,隐式神经表示/INR,超网络)Hyper-Transforming LDM
本文提出 LDMI,结合了 INR 的表达力与 LDM 的生成能力。HD 解码器使用 Transformer 架构支持概率建模,克服了 MLP 超网络的扩展性与确定性局限。LDMI 可灵活迁移已有模型至函数生成任务,适用于图像、3D、气候等多模态数据,支持高分辨率重建与生成
2025-07-04 13:53:09
1381
原创 (2025|CVPR|Reichman,扩散,图像拼接,拼接约束,相似性约束,拼接分数/TS)拼接扩散
图像拼接是将图像在边缘无缝连接,以构建连续、统一视觉场景。本文提出了 Tiled Diffusion,支持从自拼接到复杂多对多连接的多种拼接场景,实现了拼接过程的自动化,消除了人工干预的需要,并在多个应用中提升了创作可能性。
2025-07-01 13:47:57
1471
原创 (2025|微软 & 北大 & 清华,下一 token 推理 / NTR,下一 token 预测,强化学习,LLM)强化预训练
本文介绍强化预训练 (RPT),这是一种用于预训练大型语言模型的全新范式。通过将下一个标记预测构建为可验证的推理任务,并应用基于正确性的奖励机制的强化学习,RPT 允许 LLM 在预训练过程中利用扩展计算来构建更强大的基础推理能力。
2025-06-30 14:40:36
841
原创 (2025|中科大 & CASIA,持续学习,谱感知整合,奇异值分解,无监督查询正则化)LLaVA-c:持续改进的视觉指令微调
现有持续学习方法往往优先考虑任务特定性能,忽视因过拟合特定指令导致的基础模型退化,从而削弱了模型的通用能力。本文提出 LLaVA-c,对 LLaVA-1.5 进行了两项改进:引入谱感知整合以提升任务平衡性,引入无监督查询正则化以防止基础模型退化。
2025-06-25 17:45:37
678
原创 (2025|Nature Electronics|清华&港大,脑机接口,无人机操控)基于忆阻器的脑机接口自适应神经形态解码器
本研究首次在 BCI 系统中实现了忆阻器阵列级的 “硬件级一步解码”。该解码器用于执行脑控四自由度无人机飞行任务。通过结合人脑认知学习机制与芯片在线更新,实现了能耗低、响应快、可长期稳定运行的脑机交互系统。提出的协同进化框架展现了未来神经形态计算与认知智能结合的潜力,为 BCI 系统从实验室走向实际应用提供了新方向。
2025-06-21 13:09:32
1987
原创 (2025|Nature|UC Davis,脑机接口,语音合成,Transformer)即时语音合成神经假体
本研究提出一种 “即时脑-语音” 神经假体系统,通过实时解码肌萎缩性侧索硬化症患者大脑中的神经活动,实现语音合成和音频反馈,恢复交流能力。不同于此前仅将神经信号转译为文字的方式,该系统可直接合成语音,包含语调、重音、旋律等副语言特征,即便缺乏训练用的真实语音数据,仍可实现较高质量的合成结果
2025-06-16 10:00:52
1063
原创 (2025|HKUST & JHU,MeWM,VLM,疾病演化模拟,治疗策略优化)医学世界模型:用于治疗计划的肿瘤演化生成模拟
本文提出的 MeWM 首次将世界模型理念引入医学领域,实现了可视化、可量化、可优化 的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环,MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法
2025-06-05 14:22:05
1266
原创 (2025|Meta & NYU,视觉 SSL,模型和数据扩展,仅图像 ViT 训练)扩展无语言视觉表征学习
本文探讨视觉自监督学习在无语言监督情况下能否与 CLIP 等语言监督方法在多模态任务上相抗衡。研究表明,随着模型规模的扩大,尤其是训练样本数量的增加,视觉模型能够学到与语言相关的特征,并在无需显式语言监督情况下,与 LLM 和多模态任务对齐
2025-06-04 10:08:07
1279
原创 (2025|TMLR|FAR AI & NYU & Stability AI & 谷歌)逆扩展:更大并不一定更好
本文首次系统识别并分析了 11 种表现出“逆扩展”的任务,提出了 4 类成因并构建评估基准,揭示了 “扩展定律” 并非普适真理。未来 LM 发展中,亟需在任务设计、训练目标、few-shot 示例选择等方面做出改进。
2025-06-02 09:56:26
935
原创 (2025|NVIDIA,NAS,蒸馏,持续预训练,SFT,RLHF,聊天与推理)Llama-Nemotron:高效推理模型
Llama-Nemotron 是开源异构推理模型系列,主打高推理能力与高推理效率。它通过推理开关机制,支持在聊天与推理模式间切换。该模型系列基于 Llama 3 系列,通过神经架构搜索、知识蒸馏、持续预训练、监督微调与强化学习五阶段完成训练
2025-05-11 11:53:10
1444
原创 (2025|NVIDIA,压缩,FP8,VLM)Nemotron-H:精确高效的混合 Mamba-Transformer 家族
Nemotron-H 是混合 Mamba-Transformer 架构家族,通过用计算量和内存需求固定的 Mamba 层替换大部分自注意力层,旨在在保持准确率的前提下降低推理成本和提升推理速度。它使用 FP8 的训练方案 和 MiniPuzzle 压缩技术进一步降低了模型开发和部署成本。
2025-05-10 10:55:08
1014
原创 (2025|伦敦帝国理工 & 上海 AI lab,机器人,VLM,LLaVA,RoVI,VIEW)机器人视觉指令
本文提出了 RoVI,一种用户友好、空间精准的机器人指令方式,通过手绘符号替代自然语言,克服语言表达的模糊和冗长问题。设计的 VIEW 框架能够有效地将 RoVI 转换为实际机器动作,在复杂、杂乱、多步骤任务中展现了强大的泛化能力和稳健性
2025-05-07 19:50:38
700
原创 (2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像生成和编辑:综述
本文介绍了文本到图像生成的四个基础模型架构(自回归,非自回归,GAN 和 Diffusion)以及常用的关键技术(自编码器,注意力和无分类器引导 )。
2025-05-07 14:34:54
1315
原创 (2025|字节,RL,MoE,数学/科学推理,编程)Seed-Thinking-v1.5:利用强化学习推进卓越推理模型
本文提出了推理模型 Seed-Thinking-v1.5,采用 MoE 架构,使用强化学习提升思考能力。该模型在数学、编程和科学任务中表现出色。
2025-05-06 09:54:35
1119
原创 (2025|字节,VAE,DiT,多阶段训练,并行,蒸馏,内核融合)Seaweed-7B:经济高效的视频生成基础模型训练
Seaweed-7B 是一个具备约 7B 参数的中型视频生成基础模型,展示了中等规模模型在视频生成中的巨大潜力,其高效的数据处理、模型设计和优化策略使其在有限资源下依然具备极强的通用性与生成能力。
2025-04-24 23:45:53
1494
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅