自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Paper weekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可.

  • 博客(5961)
  • 收藏
  • 关注

原创 扒开DeepSeek V3.2的技术报告,我竟然看到了MiniMax的影子

在 OpenRouter 的统一封装下,从 GPT-5 到 MiniMax M2 再到 Kimi K2,保留推理块已成为全球新一代模型的通用标准。这说明,从开发者的命令行,到全球企业的云端生产环境,MiniMax M2 已经走出了开源小圈子,成为了真正被主流市场接纳的。,当所有的架构图都开始撞车,这恰恰说明 Agent 领域正在走出迷雾,找到了一条通往通用智能的必经之路。这意味着,如果不修基建,M2 这种高级模型到了开发者手里,就被迫退化成了普通聊天机器人,功力废了一半。我们看到的不仅是技术的演进,更是。

2025-12-05 13:06:34 355

原创 AAAI 2026 | 教大模型玩「谁是卧底」,竟然治好了它“睁眼说瞎话“的毛病?

),系统会准备两张图片:一张是真实图片,另一张是精心编辑过的"反事实图片"——看起来很像原图,但关键细节被悄悄改掉了(比如把两个红色物体改成三个)。游戏规则是这样的:每个人拿到一个词条,但卧底拿到的词和其他人的略有不同(比如别人是“玫瑰”,卧底是“月季”)。大家轮流描述自己的词,互相试探、互相怀疑,最后通过投票把卧底找出来。论文先用大模型对问题分类(比如“多少类”对应数量编辑,“是什么”对应实体编辑),然后基于真实图片构建场景图,找出需要编辑的目标实体和关系,生成编辑提示词,交给图像编辑模型执行。

2025-12-04 13:06:25 504

原创 无惧遮挡!无限时长!快手可灵提出无Mask唇形同步新范式OmniSync

OmniSync 的提出,标志着视频口型编辑技术经历了一次重要的范式转换:从基于几何规则的“修补匠” (Inpainting),进化为基于生成式先验的“画师” (Generative Editing)。当手掌在嘴前反复挥动时,OmniSync 生成的口型依然在间隙中保持精准,且手部纹理未发生形变,这在传统 Mask 方案中几乎是不可能完成的任务。更值得一提的是,对于背景带有复杂动态(如流动的云雾)的视频,得益于全图重绘和噪声初始化,背景的动态细节得以完美保留,没有出现常见的断层或闪烁。

2025-12-04 13:06:25 729

原创 AAAI 2026 | 教大模型玩「谁是卧底」,竟然治好了它“睁眼说瞎话“的毛病?

),系统会准备两张图片:一张是真实图片,另一张是精心编辑过的"反事实图片"——看起来很像原图,但关键细节被悄悄改掉了(比如把两个红色物体改成三个)。游戏规则是这样的:每个人拿到一个词条,但卧底拿到的词和其他人的略有不同(比如别人是“玫瑰”,卧底是“月季”)。大家轮流描述自己的词,互相试探、互相怀疑,最后通过投票把卧底找出来。论文先用大模型对问题分类(比如“多少类”对应数量编辑,“是什么”对应实体编辑),然后基于真实图片构建场景图,找出需要编辑的目标实体和关系,生成编辑提示词,交给图像编辑模型执行。

2025-12-04 13:06:25 265

转载 投稿前必看:文献综述、图表、引用都交给 AI?这些关键细节你不能忽略

两个多世纪以来,我们始终立于学术生态体系的中心,将悠久的出版传承与人工智能驱动的平台深度融合,重塑知识的发现、获取与应用方式。随着科研出版行业加速对人工智能技术的应用,“如何负责任地使用AI”已成为全行业关注的焦点及亟待解决的问题。AI工具的整体使用率从2024年的57%激增至2025年的84%。为响应这一切实诉求,威立推出了面向作者、编辑及审稿人的全新AI指南,旨在为各个学科领域及工作流程中的学者提供支持。的受访者认为AI提升了他们的工作效率,近四分之三的受访者表示AI既增加了工作产出也提升了工作质量。

2025-12-03 12:11:40 25

原创 一步也能SOTA!何恺明团队新作iMF:无需蒸馏,直达ImageNet FID 1.72

随着生成步数被压缩到极致(1步),论文也指出,当推理计算量大幅下降时,Tokenizer(如 VAE 解码器)的开销占比将变得显著,未来的研究重心或许将向着更高效的 Tokenizer 或直接的 Pixel-space 生成转移。通过将训练目标回归到标准的 v-loss,并引入灵活的条件机制和 In-context Conditioning,iMF 成功将一步生成模型的性能推向了新的高度。iMF-XL/2 实现了 1.72 的 FID,相比 MF-XL/2 的 3.43,相对提升幅度约为 50%。

2025-12-03 12:11:40 817

转载 差分隐私失效!揭秘GNN拓扑推断攻击:PGR用「零重叠」合成图破解危局

此方案不仅保护图的整体拓扑结构,也提供了边级的差分隐私保证,实现多层次、多维度的隐私防护,拓宽了 GNN 隐私保护的应用场景。研究团队提出 TPL(Topology Privacy Leakage,拓扑隐私泄漏)指标用于量化图神经网络(GNN)模型在面对拓扑推断攻击时,训练图的整体结构信息被泄漏的程度。基于双层优化问题,PGR 采用元梯度技术求解合成图,具体其中将合成图的边数视为超参数,通过对内层训练步骤的参数更新进行反向传播,计算外层目标关于图结构的元梯度。总有一些你不认识的人,知道你想知道的东西。

2025-12-02 13:05:53 19

原创 悟空杀进NeurIPS!把七十二变写成数学公式,这才是我们想看的“东方魔法”

这种将中国神话概念与硬核数学模型(Flow Models)的深度绑定,打破了现有语境对生成式 AI 的定义垄断:在这里,Morphing 不再是冰冷的形变,而是有血有肉的。我们可以看到悟空的几何结构被平滑地重塑:无论是化作一只生有双翼的神龙,还是变身直立行走的龙人战士,亦或是化作身披重甲的大象与静谧的中式庙宇,都展现了惊人的拓扑适应能力。总有一些你不认识的人,知道你想知道的东西。当你试图让“悟空”变成“龙”时,中间的插值路径往往是抖动且不可控的,就像是一帧帧不连贯的幻灯片,缺乏变身过程该有的流动感。

2025-12-02 13:05:53 532

原创 陈丹琦团队反直觉发现:打破正向反馈迷信,「以罚代奖」才是推理Scaling真相

0.1 时(即正向奖励权重仅为负向惩罚的 1/10),模型能取得最佳的 trade-off:既拥有接近 PPO 的 Pass@1,又能保持极高的 Pass@256 性能。鉴于正向更新(Pull)和负向更新(Push)在梯度层面的不对称性,在训练后期大幅降低正向奖励权重,或更激进地利用负向样本进行探索保护,是提升模型强推理能力的有效路径。(单纯惩罚错误),在维持高准确率的同时,因其独特的概率重分配机制,成为了模型在推理缩放(Inference-time Scaling)阶段保持多样性与探索能力的关键。

2025-12-01 18:07:27 342

原创 NeurIPS 2025 | 幻觉越少,幻觉越多?北邮团队新作揭示幻觉耦合陷阱

矛盾的核心在于:明明 LLM 能够独立完成“事实正确”(代码能跑)和“意图遵循”(理解功能)这两项任务,但一旦它们被要求同步实现,为何性能会断崖式下跌,陷入这种 “越努力,越失败” 的怪圈?从激活空间出发,SPACE 重新定义了模型能力协同的可能性,这标志着大语言模型在缓解幻觉这一核心难题上,迈出了里程碑式的一步,为构建更可靠、更可控的新一代大模型打开了全新的技术窗口。直接研究两种幻觉的耦合机制十分困难,研究人员反其道而行之,将两类幻觉对应为模型缺失的特定能力,从而将原本复杂的“幻觉耦合”问题,精妙地。

2025-11-30 23:09:18 1063

原创 离大谱!Apple连夜删库:ICLR投稿代码没读图,模型全靠闭眼瞎蒙

讽刺的是,恰恰是有人去复现了,才发现了这是堆垃圾。Apple 团队没有任何辩解,第二天直接由作者撤回了稿件(Withdrawal by Authors),并迅速删除了 GitHub 仓库,上演了一出连夜提桶跑路的戏码。大厂里也全是草台班子。,图里明明是相切,AI 生成的“正确推理”却非说这一步错了,理由是“这图里展示的是相交”。更荒诞的是,Lei Yang 顺手修好了这个 Bug,把真正的图片传了进去。

2025-11-29 23:44:01 572

原创 AAAI 2026 | 首个多球拍运动分析基准:RacketVision揭示多模态融合陷阱

该工作构建了从感知(跟踪与姿态估计)到预测(轨迹预测)的完整任务管线,并揭示了一个关键 Insight:在轨迹预测任务中,简单的特征拼接会导致性能下降,而基于 Cross-Attention 的融合机制才能有效利用球拍姿态信息,显著提升预测精度。简单的特征堆叠可能适得其反,而基于机制感知的 Cross-Attention 能够有效提取关键时刻的交互特征,为未来的战术分析和虚拟体育应用奠定了基础。精细标注的大规模多运动基准 ,更通过详实的实验指出了多模态体育分析中的关键路径:信息的价值依赖于融合架构的设计。

2025-11-29 23:44:01 580

原创 史诗级Bug!OpenReview全员裸奔,匿名评审秒变「实名大逃杀」

这已不是吃瓜,而是人性的全面崩塌。别猜是谁给你打 0 分了,OpenReview 刚才把审稿人的户口本都泄露了——不仅知道他是谁,连他导师是谁都看得一清二楚。如果说之前的投稿是一场“蒙面大逃杀”,那么今天,OpenReview 的程序员直接给全学术圈来了波。虽然他是英雄,但这种曝光同样让人担忧——毕竟在现在的网络环境下,好人也怕被“开盒”。这意味着,在官方修复前的半个月里,OpenReview 就像一个无人看管的图书馆。想象一下:你给别人打了 0 分,现在作者不仅知道你是谁,还知道你导师是谁。

2025-11-28 01:39:09 357

转载 推理加速175%!SparseDiT提出「时空双重稀疏化」新范式,重塑DiT效率

在 512×512 分辨率条件下,SparseDiT 在高剪枝率情况下表现出更优质的性能-效率 trade-off,通过剪枝超过 90% 的 tokens,得到 55% 的 FLOPs 减少及 175% 的速度提升,FID 分数仅增加了 0.09。在早期去噪阶段,由于以低频结构为主,SparseDiT 应用较高的剪枝率来保存计算资源。SparseDiT 在视频数据的额外时间维度上应用了更高的剪枝率,达到了 FLOPs 减少 56% 的效果,同时保持了竞争性的 FVD 评分,证明其在视频生成任务上的有效性。

2025-11-28 01:39:09 42

原创 视频生成的下一道门槛:模型会“想”了吗?TiViBench首次量化视频推理力

TiViBench 不仅是新基准,更是范式转向的信号:视频生成应从“看起来像”走向“按规则做”,从“镜头语言”走向“推理语言”。直观理解:VideoTPO 从模型自身输出中提取“偏好与缺陷”,将其转化为可执行的提示更新方向,在不改动模型权重的前提下,使生成对规则与目标更敏感、更收敛。在视频生成迈向“会思考”的过程中,一个现实困境是:训练期对齐成本高、数据收集难、奖励模型构建复杂,而推理期又常见“提示敏感性”与“解的方差大”。工具使用、导航、目标驱动规划、多步操作、视觉指令执行、策略规划等。

2025-11-27 13:04:12 382

原创 Ilya预言成真?NeurIPS 2025最佳论文:一份Scaling时代的「终局诊断书」

对于硕博生和算法工程师而言,未来的机会不再在于“谁有更多的 H100”,而在于谁能解决更本质的问题:理解 Neural Scaling 的物理机制,设计如 Gated Attention 般优雅的架构,或是打破 RLHF 的同质化诅咒。在预训练边际效益递减的当下,获奖工作没有继续展示令人参数规模,而是集体转向了对现有范式的反思与修正:从 RLVR 的效能边界,到大模型的同质化困局,再到底层架构的工程级优化。这并不意味着 AI 发展的停滞,相反,它标志着行业进入了更具技术含量的阶段。

2025-11-27 13:04:12 448

原创 数据竟是累赘?谢赛宁新作FreeFlow:仅靠高斯噪声,1步刷新ImageNet蒸馏SOTA

在推理时缩放(Inference-time Scaling)的设定下,我们可以用低成本的 FreeFlow 快速搜索最优的初始噪声,然后再交给昂贵的教师模型进行生成。作者利用了流匹配的特性:如果学生模型走的是对的,那么它在当前位置的“生成速度”(Generating Velocity),应该与教师模型在该位置定义的向量场。值得注意的是,表格中列出的从零训练的快速流模型(如 SCT-XXL),在 1 步生成时的 FID 高达 4.29,这进一步凸显了 FreeFlow 的优越性。然而,仅靠预测是不够的。

2025-11-26 12:04:41 447

转载 今天直播 | 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破

随着生成模型在图像合成等领域的突破性进展,基于生成模型的概率预测方法逐渐成为研究热点,但现有方法普遍存在两个关键局限性:一方面依赖递归生成机制或多步去噪过程,导致预测效率低下,尤其制约了长周期预测场景的应用;大量实验表明,与现有方法相比,我们的方法达到了最先进的性能。然而,这些模型在推理过程中会产生显著的计算和内存开销,极大地阻碍了其在实际场景中的高效部署。)中表明,TemporalRLT在显著减少训练数据的情况下,性能优于有监督微调和现有RLT方法,凸显了奖励设计与数据选择在视频推理中的重要性。

2025-11-26 12:04:41 137

转载 NeurIPS 2025最硬核现场:「学术海岸线·蚂蚁集团星光技术Party」报名开启

在星光与海风之外,我们也为现场的小伙伴准备了更“走心”的相遇方式——一场轻松惬意的滨海美式晚宴,以及一份贴心的冬日温暖伴手礼。无论你是来聊研究、交换灵感,还是想和同行随性聊两句,我们都希望你在圣地亚哥的这个夜晚,吃得开心、聊得尽兴、满载而归。期待与你在海边碰杯,让这个夜晚,成为 NeurIPS 2025 最值得记住的时刻。⬇️ 点击阅读原文,预约活动席位 🚀。

2025-11-25 10:31:44 87

原创 全模态理解大模型的最新“考纲”来了!NJU-LINK团队等发布OmniVideoBench

然而,现有评估基准仍存在明显短板——要么忽视音频或视觉单一模态,要么以逻辑不一致的方式整合双模态,难以全面衡量模型的真实推理能力。期待为学术界与工业界提供一个统一、公正、可解释的音视频推理评估标准,推动多模态模型从“单模态强、双模态弱”走向“音视频深度协同”,迈向更接近人类认知水平的智能系统。,涵盖 Vlog、新闻、动画、体育、纪录片、电视节目、第一视角视频等多场景,全面覆盖不同时间尺度下的视频理解需求。该基准聚焦于“模态互补性”与“逻辑一致性”,为多模态模型的真实能力“把脉”。

2025-11-25 10:31:44 314

原创 30秒出NeurIPS级插图:Nano Banana Pro科研绘图全流程实测

Multi-modal Mixer 的双流输入,Memory Retrieval 的层级结构,Active/Idle Routing 的分叉路径……低饱和度的配色(Pastel Color),干净的间距,还有底部那个 3D 视频长廊的空间感。测试下来,我发现 NBP 的核心逻辑是:你负责逻辑(Text),它负责审美(Visuals)。我把这张图的结构逻辑完全写进 Prompt,让 NBP 按结构复刻、按风格提升。你只要给它逻辑,它就还你专业。它是最近 AI 圈的顶流,但我发现,它被严重低估了。

2025-11-24 23:53:17 1066 1

原创 快手 × 南大发布代码智能「指南针」:重新定义AI编程能力评估体系

研究团队也规划了未来的扩展方向,包括规模和覆盖范围的扩展、更难的长上下文设置、指标和协议的丰富、评估轨道的探索、人在环校准以及可复现性、安全性和可访问性的持续改进。诸如用户界面/用户体验工程、安全工程和应用程序开发等高得分类别将成熟的框架与清晰的预言机和快速运行的测试相结合,在这些类别中,Claude Code 以编辑器为中心的工作流程将稳定的反馈转化为更少轮次下更高的 Pass@1。在图(b)中,总体性能越高,视觉上与跨语言/任务的变异性(变异系数,CV)越低相吻合,这表明更强的模型通常变异性更小。

2025-11-24 23:53:17 757

原创 OpenAI联手菲尔兹奖得主与多位顶尖学者,首次公开GPT-5的科研真实战力

这意味着 AI 在科研中的位置,正在发生质变——从提高效率的工具,走向真正参与推理的伙伴。更巧的是,这篇研究在 arXiv 上有 v1、v2、v3 多个版本:v1 给出的是一个明显保守的条件,v2 才补全最优界。它能识别不同数学分支中对同一结构的各种表达方式,并在海量文献中定位真正关键的定理。更令人意外的是,它在检索过程中会自动组织起跨领域的逻辑关系网络,类似经验丰富的研究者脑中自然形成的“概念地图”。参与者来自数学、物理、生物、算法与优化等多个最硬核的方向,覆盖了科研中最具挑战性的推理链条与问题结构。

2025-11-22 09:12:11 363

原创 ICML 2025 | 联邦学习的“平衡艺术”:FedCEO破解隐私与效用的权衡困局

具体而言,通过张量奇异值分解(T-tSVD)算法提取张量中的低频语义关联成分(如跨机构数据中蕴含的共性任务特征),强化该部分语义信息的全局一致性,进而平滑高频噪声引发的局部语义波动(如监测数据中的随机扰动信号对语义表达的干扰)。同时,根据隐私需求的严苛程度(即隐私预算 ε 的取值)动态调整阈值系数 λ,当隐私要求更高(ε 取值更小时),降低 λ 以提升语义空间的稳定性,确保在强化隐私保护的同时,维持语义表达的一致性。,证明其能以更低的效用代价实现更高的隐私保护强度;

2025-11-22 09:12:11 1006

转载 北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生

3. 有较强的研究能力,复现过业内领先工作,有国际顶尖会议(包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, AAAI, IJCAI, ACMMM, ACL、EMNLP、RecSys、KDD、CIKM等)论文发表经历更佳;,致力于研究并落地多模态、大模型、Agent、Reasoning等算法能力,技术应用落地场景广泛,GPU资源充足。较好理解大模型、多模态大模型原理,对大模型、多模态相关技术有强烈兴趣,有相关实习经验者优先;2. 前沿技术探索,沉淀国际顶会论文;

2025-11-21 13:33:26 77

原创 ICLR 2026吃瓜大赏:论文区在卷,审稿区在演,比春晚还热闹的五大名场面

今年 ICLR 的论文区依旧卷,但真正让人记住的,是审稿区这一连串“学术圈名场面”。这些戏剧瞬间之所以值得记录,不是因为好笑,而是因为它们正揭开一个现实:大家一边赶毕业、一边赶论文,节奏快到飞起,审稿区的火气自然就控制不住。随后审稿人还在评论区正面回应了“小红书”上的相关讨论,瞬间把原本严肃的 OpenReview 氛围拉成了跨平台撕逼现场。另一边,是审稿人、作者、围观群众三方在评论区轮番上台,贡献了足以写进《学术圈名场面年鉴》的现场。这篇论文收到的审稿意见,大概是今年 ICLR 最先冲上热搜的。

2025-11-21 13:33:26 1081

原创 AI离“可靠记忆”还有多远?HaluMem首次把记忆系统幻觉拆到操作级

在记忆问答环节中,表现最佳的系统往往同时具备最高的记忆完整性与更新准确率,印证了“提取决定根基”这一判断。要实现长期、可信的智能行为,需要构建更稳健的长期记忆体系,同时提升提取与更新效率与质量,并强化推理能力与自适应机制,以支撑复杂、动态和多轮任务的智能交互。以事件流中的每个事件为核心,生成对应的对话概要与记忆点,明确系统应提取和更新的内容。:HaluMem 首创“三阶段幻觉拆解机制”(记忆抽取 → 记忆更新 → 记忆问答),可在系统运行的每一步追踪幻觉来源,突破传统端到端评测盲区(见图1)。

2025-11-21 13:33:26 983

原创 SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位

团队对比了 AMO-Bench、AIME 和 MATH500 的人类标准解,差异非常直观:AMO-Bench 的推理链更长,步骤更多,逻辑密度也明显更高。当基准回到奥赛级别,模型之间的梯度再次拉开,稳定性、链路深度、自检能力这些长期被满分时代掩盖的差异,都重新浮到了台面上。这一轮又一轮的筛选,实际起到的作用就是:把那些“看着像奥数题,但模型一试就秒杀”的题提前拦掉,只保留真正处在奥赛段位、甚至更高的题目。AMO-Bench 的做法,是在保证难度不缩水的前提下,让题目尽可能具备可验证的最终答案。

2025-11-20 13:14:45 359

原创 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链

更意外的是,实现这个突破的方法不是更强的推理模型,而是相反的思路:把任务拆成无数个“只能走一步”的小 agent。在正式执行百万步前,作者先从任务的整体轨迹里抽取了一万个不同状态,对每个状态进行多次调用,估计不同模型的单步正确率 p,并计算它们对应的执行成本。在大模型的世界里,“一步错,全盘崩”几乎是铁律。真正的突破,是把长任务的稳定性从一种碰运气的事情,变成了一个能靠结构设计出来的结果。大模型在推理类任务上的表现已经很强,但一旦涉及成百上千、甚至几十万步的链式执行,模型的输出会不可避免地积累误差。

2025-11-20 13:14:45 463

转载 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律

基于密度法则的理论指导,清华大学、面壁智能团队持续推进高密度模型研发,发布了面壁小钢炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端侧高密度模型,凭借高效低成本的特性享誉全球,被评为 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型。一方面,密度法则指出同能力的大模型参数每 3.5 个月减半。芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。

2025-11-19 18:36:07 94

转载 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告

两个多世纪以来,我们始终立于学术生态体系的中心,将悠久的出版传承与人工智能驱动的平台深度融合,重塑知识的发现、获取与应用方式。,为科研人员清晰指明如何负责任地使用AI——我们正通过提供指导、确保AI开发者能够获取高质量内容,以及合作开发负责任的AI应用等有效方式,持续支持科研人员应对不断演进的人工智能发展格局。与此同时,在全球范围内,科研人员虽已积累丰富的实践经验,但仍渴求更多指导以助力目标达成。的受访者认为AI提升了他们的工作效率,近四分之三的受访者表示AI既增加了工作产出也提升了工作质量。

2025-11-19 18:36:07 103

原创 JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了

总有一些你不认识的人,知道你想知道的东西。在 TOON 的 GitHub 页面里,它被描述为“为 LLM 优化”、“字段声明一次即可”、“round-trip 回 JSON 无损”。这东西完全不讲 token 节省,语法极繁,像从 1990 年代的配置文件里召唤出来:BEGIN、END、DEF、缩进、块、再嵌套。到这一步,大家的心态彻底摆烂:从“认真分析格式”瞬间切成了“算了算了,咱们也开始把格式当乐高随便拼吧”。“演化路线图”、“高吞吐场景”、“结构表达密度”、“最佳实践”这些词让人看了不得不:?

2025-11-18 14:09:52 608

转载 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告

随着生成模型在图像合成等领域的突破性进展,基于生成模型的概率预测方法逐渐成为研究热点,但现有方法普遍存在两个关键局限性:一方面依赖递归生成机制或多步去噪过程,导致预测效率低下,尤其制约了长周期预测场景的应用;大量实验表明,与现有方法相比,我们的方法达到了最先进的性能。然而,这些模型在推理过程中会产生显著的计算和内存开销,极大地阻碍了其在实际场景中的高效部署。)中表明,TemporalRLT在显著减少训练数据的情况下,性能优于有监督微调和现有RLT方法,凸显了奖励设计与数据选择在视频推理中的重要性。

2025-11-18 14:09:52 202

原创 让千问APP当一周科研打工人:它比我想的能干,也比我想的累

它写出来的 Related Work 像是在讲长上下文模型这些年的技术演进:从 Transformer-XL 的瓶颈,到 sparse attention,再到外部记忆和 RetNet,最后自然落到 Gemini 1.5。这一轮千问的风格很直接:不铺垫、不客套,盯着实验设计哪里合理、哪里不对劲,说的问题也都能精确到页码或段落,翻一下就能验证。这个复现清单看着就像是经常跑实验的人写的:数据怎么整、训练怎么配、判别器怎么起、评测怎么跑,都给到了能立刻跑实验的程度,没有凑字数,也没有瞎猜。

2025-11-17 11:02:03 649

原创 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间

无论是深度感知(定位最远的凳子)、三维相对定位(停在盆栽旁边而非前方),还是空间关联理解(橙色柜子旁边的凳子),JanusVLN 都能借助其空间几何记忆,准确理解指令并成功完成任务,证明了其卓越的空间推理能力。:引入预训练的 3D 视觉几何基础模型(VGGT),它能够在仅接收 RGB 视频的情况下,输出蕴含丰富三 D 结构信息的空间几何特征,回答“它在哪里,空间关系如何”的问题。:缓存历史视频帧的方法在每一步决策时,均需重复处理全部历史观测数据,造成巨大的计算冗余和推理延迟,严重阻碍了模型的实时应用潜力。

2025-11-17 11:02:03 440

原创 ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?

他发现这篇论文里到处是奇怪的行文、不连贯的推导,还有不少对不上号的引用,但分数却一点没受到影响。首先是第一位,这位审稿人的审稿,看起来非常顺滑:开头两句礼貌夸赞“思路不错”、“有潜力”,接着轻轻带过几个中性意见“摘要稍微技术化一点”、“可以解释得更清楚”。如果论文是模型写的,审稿也是模型写的,那剩下的人类 reviewer 到底在体系里扮演什么角色?大家现在都开始自己去查审稿了——看看审稿人到底是自己写的,还是模型顺手糊的。这波操作给人的感觉就是,多丢几版上去试试,看哪版能撞上不懂行的审稿人。

2025-11-16 12:27:02 931

原创 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段

团队利用 arXiv API 获取论文数据并根据 Co-author 关系逐步构建 Co-author Graph:每个作者节点的特征是其已发表的一作论文,每条边代表首尾两个节点的作者有过至少一次合著论文的经历。通过周期性更新的 Co-author Graph、自动生成的高质量标签与灵活的上下文长度控制,AcademicEval 让评测不再停留在静态,而是走向持续演化(Live Evaluation)的未来。此外,通过将零散的论文组织成 Co-author Graph 结构,我们可以很方便的进行数据的。

2025-11-16 12:27:02 664

原创 ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解

相比长上下文 LLM,GoR 的输入长度更短,却获得了更好的摘要质量与更低的成本,显示出强大的信息压缩与结构建模能力。更关键的是,历史回复往往与原始文档片段存在复杂的语义依赖与逻辑传递关系,而传统 Retriever 仅基于静态语义相似度,无法捕捉这种跨查询、跨响应的动态联系。由于 User Query 各不相同,在 GoR 的构建过程中,不同 Query 间的语义依赖与逻辑关联交织形成复杂的图结构,如何高效建模并学习这些潜在关系,是实现有效 RAG Memory 管理的关键。

2025-11-14 11:47:39 1060

原创 OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开

无论是查看注意力头、分析激活分布,还是构造反事实示例,所有常用手段都会在 dense Transformer 的层间混叠里碰壁:上万条通道挤在同一空间,很难看出清晰的结构。在高度稀疏的权重约束下,Transformer 的功能不再扩散,而是集中在少量关键路径上。最后的实验展示了一个更强的结果:借助 Bridge,对齐后的稀疏电路可以直接影响 dense Transformer 的输出。的任务里,研究者调整稀疏模型中有关引号差异的通道激活,再映射回 dense,dense 模型的输出概率会随之平滑偏移。

2025-11-14 11:47:39 821

转载 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生

1. 基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用;2. 包括但不限于计算机、软件工程、人工智能、网络安全、信息与通信工程、电子科学、自动化、量子计算、数学以及其他前沿交叉学科等相关专业。4. 跟踪、探索大模型方向/多模态预训练方向的前沿技术,通过后训练强化学习提升多模态对齐、多模态推理思考能力,提升下游任务的效果。

2025-11-14 11:47:39 70

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除