自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Paper weekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可.

  • 博客(6188)
  • 收藏
  • 关注

原创 ACL 2026 | 大模型为何“视而不思”?浙大×阿里揭秘MoE分心机制

以 MathVerse 为例,其文本版本无法完整描述几何图形的空间关系,模型在纯文本版本上的精度(67.26%)反而低于视觉版本(69.29%),说明视觉信息本身具有不可替代的价值。更根本的解决思路在于训练阶段:设计鼓励路由器基于任务需求而非输入模态分配专家的架构或训练目标,例如惩罚模态依赖的专家选择的路由正则化,或对语义等价的多模态输入对齐路由分布的辅助损失。:在算术补全任务中,从纯文本输入中提取源数字和目标数字的隐状态向量,再将其注入图像 token 的隐状态中,观察模型输出是否随之改变。

2026-04-29 15:04:05 131

转载 杭州内推 | 蚂蚁灵光大模型应用团队招聘大模型应用算法实习生

我们的使命是通过底层算法的突破与极致的工程优化,赋予基座模型更强大的逻辑推理、知识理解与复杂任务处理能力。目前,团队正处于从通用智能向高价值领域深度赋能的关键阶段,致力于让基座模型在处理高精度、高逻辑密度的复杂场景中(如金融、灵光、医疗)展现出超越人类专家的水平。算法研究与优化:深入参与大模型后训练微调工作,重点攻克 DPO、PPO、GRPO、KTO、ReFT 等对齐与偏好优化算法。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。

2026-04-28 15:03:14 27

转载 MiniCPM-o 4.5技术报告发布:全双工全模态API开放,RTX5070即可实时运行

而 MiniCPM-o 4.5 在全球范围内首创「全双工全模态」,模型能在持续感知环境(看视频、听声音)的同时进行思考和响应,这让 AI 从一个被动的工具变成了一个可以主动帮助人类的真正助手。在显存方面,MiniCPM-o 4.5 的 INT4 量化版仅需 11GB 显存即可运行,几乎是 Qwen3-Omni INT4 版本的一半,使得其在消费级显卡上的本地部署成为可能。AI 与人类的不同频,使得大多数用户无法在与大模型产品的交互中获得良好的体验感,甚至由于交流的「时空割裂」逐渐失去耐心。

2026-04-28 15:03:14 43

转载 Springer Nature直播预告 | 无人系统集群协同与工程挑战

张柯,2012年在南京航空航天大学获得博士学位,现为南航自动化学院教授,江苏省杰出青年基金获得者,江苏省“青蓝工程”中青年学术带头人,南航“长空英才”,“直升机动力学”全国重点实验室核心骨干成员,IEEE高级会员,长期从事无人集群系统的故障诊断、协同安全控制与规划决策等,目前担任Springer出版社“无人系统技术(Unmanned System Technologies)”系列丛书的编委。近年来,人工智能已成为工程应用中的一项重要技术,与计算(数值)方法相媲美,在许多新近出版的工程学书籍中都有体现。

2026-04-27 13:52:52 22

原创 200刀打败18万美元FARS,我们离真正的Auto Research还有多远?

虚高的原因是很多时候 paper 做出来效果不好,然后就放在 paper 上了,而 agentic review 会觉得 negative results 也是一个很好的发现,并且是一个诚实的表现,然后会在 strength 里面狠狠地加分。其中日行迹的 FARS 出来的时候让我感觉很惊艳,感觉 academic 要完,然后看着手头的 Claude Code(Opus 4.6),想着说看能不能用 Claude Code 复刻一下,以后就不用搞科研了(bushi)。耗时短,平均 1.3 小时就能生成一篇。

2026-04-27 13:52:52 481

原创 “蒸馏”学术大牛后,我的论文直接把导师看傻了

在第三轮的三方讨论中,团队引入了由第三位学者语料蒸馏而成的 Scholar C,系统并没有因此失去一致性,反而呈现出一种互补性的三角关系。对于大学里的日常评审、教学指导,或平台上的初步筛选来说,只要系统的表现达到可用的基准线,成本压力就足以推动它被更大范围地部署。在同行评审、博士生指导等核心学术任务的盲测中,专家普遍认为,这两个“数字替身”的产出已经达到了大学高级讲师的专业水平。具体做法是,梳理学者过往著作中的推理逻辑,再把这些原本较为抽象的判断结构,转化为大模型在推理阶段可调用的约束条件。

2026-04-22 14:32:25 515

转载 Advanced Science 2026青年科学家创新奖开放申请

两个多世纪以来,我们始终立于学术生态体系的中心,将悠久的出版传承与人工智能驱动的平台深度融合,重塑知识的发现、获取与应用方式。从独立研究员、莘莘学子到世界500 强企业的研发团队,威立始终助力将先进的科学突破转化为切实的社会实践。我们希望这一主题特刊与线上虚拟专栏能够为读者带来启发与洞见,诚邀您深入阅读这些青年创新者的研究成果,见证他们正在推动全球科学与社会进步的卓越成就。上的正式表彰——该峰会是一项重要的线上线下结合的活动,将于 2026 年 11 月 2 日 在伦敦举行并同步全球直播。

2026-04-22 14:32:25 43

转载 大规模智能体网络如何真正扩展?一篇综述梳理拓扑、记忆与动态更新

全局记忆(global memory)有利于共享上下文(shared context)和状态对齐(state alignment),局部记忆(local memory)更贴近真实分布式环境(distributed environment),但也更容易带来分歧。基于这些观察,作者认为未来研究需要更关注几个方向:更明确的一致性模型(consistency model)、更强的共享状态控制(state control)、更成熟的路由与通信调度机制,以及面向开放环境的身份、安全和鲁棒性设计。

2026-04-21 15:10:03 56

原创 加问号中稿率45%?ICLR五年「易中词」盘点,细分领域从拉到夯

高达四分之一甚至三分之一的撤稿或直拒率说明,很多人在冲刺热点时,因为实验效果不佳或初审反馈极差而无奈放弃。在顶会命中率持续走低的大环境下,前期的选题方向,很大程度上决定了这篇论文是顺风局还是 hard 模式。,但录用的 12 篇文章全部为 Poster,Spotlight 和 Oral 的比例都是。(39 篇),外加 5 篇 Desk Reject,相当于有近三分之一的投稿在早期就已出局。顶会越来越卷,与其在天坑里盲目死磕,不如用这五年的两万份真实投稿数据,给自己的选题算一卦。的投稿多达 138 篇。

2026-04-21 15:10:03 543

转载 大模型开始“懂你”了!PersonaVLM如何实现长期个性化记忆

5 进一步提供定性案例。除了方法本身,这项工作还提出了新的评测基准—Persona-MME,通过设计的数据合成管线,生成了包含 200 个多样化虚拟角色的交互数据,用于系统评估模型的长期个性化能力。,根据刚刚的对话微调用户的性格评分,并主动提取对话中有价值的信息,对四类记忆库进行增删改查,为下一次交互做好准备。AI,不只是知道答案,而是能够记住你的偏好、理解你的习惯、适应你的变化,并在长期互动中逐渐形成对你的认知。从短期对话到长期关系,从统一能力到个体差异,大模型正在从工具,逐渐演化为真正的智能体。

2026-04-20 12:32:13 84

转载 大模型架构新范式!NUS、复旦等发布首篇Latent Space系统综述

当前主流大模型仍以显式符号空间(语言 token 空间)作为核心运算载体,这一模式存在语言冗余、离散化瓶颈、序列解码低效、细粒度语义丢失等难以规避的结构性缺陷,在复杂推理、多模态交互、长时序任务等场景中表现受限。面向潜空间的专属架构、精细化优化策略批量涌现,文本、视觉、具身智能、多智能体协作等全领域应用呈爆发式增长,潜空间范式迈入成熟与规模化应用的新阶段。潜空间彻底突破离散 token 的表达限制与计算瓶颈,全面激活推理、规划、建模、感知、记忆、协作、具身七大核心智能,大幅拓展大模型的能力边界。

2026-04-20 12:32:13 70

原创 ACL 2026 | 通义首提R-EMID框架:形式化揭示角色扮演性能退化机制

例如,面向全球用户的平台(如Character.AI )需服务来自各种未见过的语言与文化背景的用户;第三,简单引入外部蒸馏的推理数据(如 ThinkingSFT/ThinkingRL 方法)反而损害性能,表明 RPM 的泛化提升可能需依赖与角色一致性、用户适配等任务特性深度耦合的推理机制,而非对推理数据的直接蒸馏。其次,我们提出一种基于信息论的度量指标:基于推理的有效互信息差异(R-EMID),用于量化 RPM 的泛化性能,并推导其上界,从理论上揭示各类分布偏移对 RPM 性能下降的具体贡献机制;

2026-04-17 13:07:51 604

原创 具身智能表征的ImageNet来了!机器人终于看懂了人类世界

为了全方位验证隐式动作表征的有效性,论文系统评估了具身智能领域现有的四类代表性范式:专为具身设计的隐式动作模型(Embodied LAMs)、语义级通用视觉编码器、像素级通用视觉编码器,以及在通用主干上构建的 General LAMs。实验数据给出了明确答案,在未接受任何显式动作监督的情况下,通用视觉编码器(如 V-JEPA 2、DINOv3)在语义捕捉和底层控制还原上的表现,均明显优于专为机器人研发的 Embodied LAMs。随着数据规模的进一步扩展,隐式表征的性能边界仍有巨大的提升空间。

2026-04-17 13:07:51 593

转载 直播预告 | 密歇根州立大学刘思佳教授:从机器遗忘到更广泛的模型调控

该方法通过局部化、感知干扰的更新机制,在谱子空间中有效缓解目标冲突,从而实现高效的模型调控,同时最大程度保留模型的有用能力。在本次报告中,我将介绍一种“从约束到控制”的视角,将模型调控形式化为一个模型约束优化问题。机器遗忘(machine unlearning)旨在移除模型中不希望保留的知识,例如隐私信息或有害内容,是这一更广泛问题中的一个新兴实例。在部署既有用又可信的人工智能系统时,如何在保持模型效用的同时控制基础模型的行为,是一个核心挑战。MIT-IBM Watson AI Lab客座教授。

2026-04-16 19:46:27 57

转载 ACL 2026 | 微软提出RepoGenesis:AI能从README生成完整仓库吗?

PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。等商业 IDE 做了一轮系统评测(多模型配置,主文侧重 GPT-5.1、Claude-Sonnet-4.5、Qwen3-30B 等组合,细节见附录)。真正让人头疼的 0 到 1,往往是读完一份需求文档,把一整套可部署的代码仓库搭出来:目录怎么拆、依赖怎么对齐、多个文件之间的接口与错误处理怎么一致。给这类「贴工程」的硬评测一页版面时,讨论或许会少一些口号,多一些能落地的下一代模型与 Agent。

2026-04-16 19:46:27 76

原创 一句话自动剪Vlog!连BGM都能丝滑卡点,CutClaw有点太会了

人类视觉偏好极高:在包含了 2000 份样本盲测的用户偏好研究中,CutClaw 赢得了 49.8% 的视觉质量投票和高达 53.0% 的视听和谐度投票。虽然目前的系统在特效生成和处理速度上还有提升空间,但这套强大的“能听懂、会卡点、懂审美”的多智能体框架,已经为从影视后期降本增效到自媒体 Vlog 自动生成,打开了全新的想象空间。高质量的模型,离不开严谨的数据集与评测。拟人化的剪辑质感:近一半(48.8%)的受访用户认为,CutClaw 生成的作品在节奏与叙事逻辑上“非常像人类专业剪辑师”。

2026-04-16 19:46:27 605

原创 AI也有两幅面孔?复旦等最新研究:高压之下大模型集体变脸

在一个案例里,Gemini-3-Flash 生成了具有木马特征的代码,它自己也意识到这一点,但主动把它包装成“防御性监控工具” ,并添加了绕过杀毒软件的配置,同时假装一切正常。浏览器打开 http://127.0.0.1:8000/viewer/,即可查看完整的评测报告、风险评分、思维链分析、交互轨迹、运行日志等内容。但在高压 + 高诱惑下,直接飙升至 54.5%,部分模型风险率翻了三倍以上。件系统、数据库、权限控制等,这些“物理规则”用 Python 可执行代码实现,结果完全确定、可复现,不会产生幻觉。

2026-04-15 12:33:18 624

转载 星耀里约!逛完ICLR主会场,别错过蚂蚁这场学术派对

点击阅读原文,一键报名。

2026-04-15 12:33:18 80

原创 长推理不一定更强:北航 × 字节提出SAGE-RL,挖出大模型隐藏天赋

基于核心发现诞生的解决方案,可直接应用于实时推理、低资源部署、高难度数学/逻辑推理等核心场景,在大幅降低推理耗时、计算成本的同时,提升推理正确率,真正推动大推理模型从“实验室”走向“工业化”。pass@k 范式虽能通过多轮采样发现少量“短且优”的有效推理链,但这些链被淹没在大量冗余样本中,需要额外计算成本筛选,无法直接应用于实时推理场景,本质上仍是对模型高效推理潜力的浪费。实验显示,在 pass@1 范式下,超 50% 的样本在得出正确答案后,仍会生成数百个 token 的重复验证步骤。

2026-04-14 14:32:07 564

原创 OpenClaw也要装“杀毒软件”?ClawKeeper盯住「龙虾」每一步

ClawKeeper 最具突破性的设计 —— 独立于业务智能体的外部监控器,作为专属安全监管智能体,实时捕获运行状态、验证行为轨迹,无需耦合智能体内部逻辑即可实现高危操作阻断、人工确认介入,彻底解决安全与任务的冲突,抵御对抗性篡改,还能随威胁进化持续迭代。它不再依赖零散的提示词约束,而是把系统操作、文件访问、软件交互、权限使用等安全策略,整理为结构化、可直接被模型理解的规则文档,稳定注入到智能体的上下文环境中,让安全要求成为执行任务时必须遵守的“默认准则”。总有一些你不认识的人,知道你想知道的东西。

2026-04-14 14:32:07 530

转载 Advanced Computing 正式启航,聚焦计算机科学全领域,现已开放投稿!

包括机器学习、数据挖掘、自然语言处理、信号与模式识别、认知架构与推理模型、数据管理与大数据分析、数据治理、人机交互(HCI)、可视化分析与可视化数据科学、多模态学习与理解,以及认知与发展系统(如认知机器人、发展型 AI、类人学习)和情感计算(如情绪识别与多模态情感感知)。包括目标检测与识别、三维重建与立体视觉、图像与视频处理、增强现实与虚拟现实(AR/VR)、图像合成与渲染、医学与生物成像、场景理解与分割、目标跟踪、运动分析与动画。包括算法设计与分析、计算复杂性、图论、优化方法、形式化方法与自动机理论。

2026-04-13 18:34:05 74

转载 屡刷高分却不实用?南大团队揭示最强模型实际仅得49分

代表性工作包括 VITA 多模态大模型系列(VITA-1.0/-1.5、Long-VITA、VITA-Audio),MME 多模态评测基准系列(MME、Video-MME、MME-RealWorld)和 Awesome-MLLM 社区等。在视频理解的下一阶段,Video-MME-v2 想推动的是一次评测理念上的转变,强调真正需要比较的是谁能够在连续、动态、多模态的信息中,像人一样,真正理解正在和已经发生的事情。基于第二层,第三层则更接近真实世界任务,要求模型在更复杂、更开放的场景中进行推理。

2026-04-13 18:34:05 86

原创 复旦大学 × StepFun开源PixelSmile:让人脸表情迈向连续可控

FFE Dataset 引入了连续表情强度标注,FFE-Bench 统一评估表情准确性、控制能力与身份保持,这也让细粒度表情编辑第一次具备了更系统化的评估标准。在对比实验中,即便是当前较强的通用编辑模型,例如 GPT-Image-1.5 和 Nano Banana Pro,在细粒度表情编辑任务上仍然存在明显局限。例如,惊讶与开心的组合会呈现为“惊喜”,厌恶与开心则会形成更复杂的混合表达。这意味着,模型可以生成具有一致身份的表情变化序列,控制信号与视觉结果之间也具有更稳定的对应关系。

2026-04-10 14:36:17 673

转载 直播预告 | 斯坦福大学孙卿云博士:构建可自我进化的金融AI智能体

直击 Transformer 早期落地核心脉络,拆解 Google Brain 原生研发视角,揭秘底层模型从技术探索到金融场景落地的关键迭代逻辑,厘清大模型赋能量化投资的本源路径。聚焦当下 AGI 金融落地趋势,详解可自我进化金融 AI 智能体的研发逻辑,打通大模型技术、量化投研、自主迭代的全链路,揭秘 AI 赋能投资交易的未来创业方向与行业增量。从Transformer到Alpha:构建可自我进化的金融AI智能体。构建可自我进化的金融AI智能体。2026年4月11日(周六)

2026-04-10 14:36:17 69

转载 Meta押注Neural Computers:下一代计算机,就是模型本身?

只用约 1,100 小时富有噪声的终端数据集,就把原本几乎不懂计算机界面、连稍微小一点的文字都很难生成的 Wan2.1 [31],拉到了能稳定生成 terminal 表示的程度,对常见命令、回显和日志形态也已经有了相当可观的浅层对齐。虽然一开始很少有人看好视频模型能处理这种高度离散、文字密集、动作敏感的计算机场景,但只要任务设计和数据组织得当,它在界面渲染、页面切换、短时状态延续、局部交互、执行回显,甚至一些非常初步的工作记忆上,都已经能给出很多有意思的结果。输错、删改、重打之后,状态还能不能接着延续。

2026-04-10 14:36:17 91

原创 ICLR 2026 | VLM持续学习怎么抗遗忘?KeepLoRA从参数子空间入手

在预训练视觉语言模型(VLMs)的持续学习(Continual Learning)中,模型需要平衡三个相互竞争的目标:保留预训练的通用知识(前向稳定性)、保留之前学习任务的知识(后向稳定性),以及维持获取新知识的能力(可塑性)。为了在受限空间中依然保持高可塑性,KeepLoRA 在新任务训练的第一步,计算全参数微调的梯度,并将其正交投影到统一主子空间的残差空间中。研究团队首先分析了模型参数空间的知识保留机制,发现通用知识主要编码在参数的主子空间中,而特定任务知识则编码在残差子空间中。

2026-04-09 20:13:17 609

原创 只给实验日志,一键吐出顶会LaTeX成稿,Google这波有点狠

内容精调机制的优化效果对比。论文给出的结果也比较直观,在 CVPR 和 ICLR 数据集上,加入这套 refinement loop 后,模拟接收率分别提升了。相比继续追求覆盖整个科研流程,把排版、文献整理和成稿这些工作先交给 agent,至少在当前阶段,是一个更贴近实际研究场景的方向。即使研究者只提供非常简略的 idea,系统依然能补出相对完整的学术脉络,并生成结完整、引文扎实的 Related Work。横向对比目前主流的自动科研系统,它是唯一实现写作流程彻底解耦,并原生支持概念图生成的框架。

2026-04-09 20:13:17 584

原创 还在手搓工作流?EvoSkills开卷,AI开始自己爆改skill

箭头标注的自然科学领域中,人类编写的技能反而降低了性能,而自进化技能则带来显著提升——这正是人机认知错位的直接证据。图5. 跨模型技能迁移能力。SkillsBench 基准测试的系统评估表明,为智能体装备精心设计的技能,能在软件工程、科学分析等多个专业领域带来一致的性能提升——自进化技能更有效地捕捉了智能体实际需要的工作流——编码其自身的推理模式和工具使用偏好,而非按照人类专家假设的方式运作。但在实际的专业场景中——复杂的软件修复、多步骤的科学数据分析、企业级数据管道编排——单纯的工具调用远远不够。

2026-04-08 18:16:24 674

转载 ICLR 2026 | 「音频贡献」成关键变量,音频大模型后训练迎来新范式

其中-ACstrong 后缀的 benchmark 指的是原 benchmark 的“强音频贡献”部分,更能反映模型感知音频的能力。此外,基于不同后训练策略,团队在多个权威基准上建立了新的最优性能:MMAU-test-mini 达到 78.2%,MMAU达到 75.6%,MMAR 达到 67.1%,MMSU达到 70.7%,刷新了最优性能记录。基于研究结果,团队创新性地提出了“音频贡献过滤”和“基于音频贡献的后训练”方法,简洁地解决了在音频-语言大模型的后训练过程中监督微调-强化学习范式失效的问题。

2026-04-08 18:16:24 125

原创 TPAMI 2026 | 当考试开始“因人出题”:中科大发布首篇自适应测评综述

本书聚焦人工智能在教育测试中的应用,系统探讨了计算机自适应测试这一重要测试模式,重点介绍了 AI 驱动下的认知建模、智能选题、高质量题库构建与测试流程控制等关键问题,全面梳理了相关理论基础、核心技术与典型应用场景。本书适合教育技术、人工智能、教育评估等领域的研究者、开发者与实践者阅读,可为构建更加科学、公平、高效的智能教育测试体系提供参考。总的来看,以自适应测评为代表的、源于心理学和认知科学的评价范式,正在从人类教育测评逐步扩展到 AI 评估,并有望演变为一种更通用的智能测评框架。

2026-04-07 15:59:21 557

原创 不打丧尸改写代码,《生化危机》女主开源 AI 记忆系统

但比 benchmark 更值得关注的,还是它已经不只是一个围绕榜单优化的 demo,而是一套试图接入真实工作流的本地 memory system。这两年大家都在谈 agent、谈推理能力,但只要重度使用过 AI 一段时间,就会发现一个更基础的瓶颈:模型变聪明了,协作连续性却没有真正跟上。MemPalace 对准的,其实是一个很清楚的方向:大模型下一阶段的竞争,除了推理能力,也会包括能否形成稳定、低成本、长期在线的记忆机制。写代码、搭工作流、做个人工具,正从少数人的专业技能,慢慢变成一种更广泛的创作能力。

2026-04-07 15:59:21 935

转载 NTU发布世界模型交互新范式:把手伸进屏幕不再是梦

给一张照片,对着空气比划几下,AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频,物体也会产生对应的物理响应——还能自回归地一直生成下去,长视频也保持稳定。我们用逐像素的 Plücker 射线嵌入编码相机运动,通过轻量级 adapter 以加法方式注入扩散模型,将手部关节运动和头部自运动彻底解耦,解决上述手-相机歧义。如下图所示:训练时(上排),手在抓握物体,手部被遮挡,提取出的 mask 是残缺的;推理时(下排),用户在空气中凭空比划,手完全可见,mask 也是完整的。

2026-04-06 12:35:29 41

原创 中国博二学生向Nature求救:导师骂我不如硕士,该退学吗?

Mahmoudi 还推荐联系专门处理学术霸凌的组织,例如他在 2019 年参与创立的学术平等运动,这个由专业人士组成的网络,可以为受影响者提供情况评估和帮助。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。这种学术界的隐痛引发了广泛共鸣。这些记录了你感受和经历的文字,无论当下是否有用,都可能在未来成为你保护自己的关键武器。强调,当务之急是停止内耗,不要再纠结导师的负面评价,多多关注自身的心理健康。

2026-04-06 12:35:29 605

转载 直播预告 | Virginia Tech王璇教授:小型多模态智能体的构建与应用

我将重点介绍如何设计紧凑而高效的语言模型、如何融合多模态信息,以及如何通过多智能体协作来完成复杂问题求解。同时,我还将展示这些方法在生物医学、机器人以及科学发现等领域中的实际应用。然而,其模型规模庞大且多为专有系统,在一定程度上限制了其可获取性、透明性与可复现性。在本报告中,我将介绍我们在构建小型、开源、多模态语言模型智能体方面的研究工作,这些智能体能够在多种任务中实现有效的推理、规划与决策。我们的目标是推动构建一个更加开放、透明且可复现的人工智能生态系统,以更好地服务科学与社会。

2026-04-03 12:36:45 63

原创 CVPR 2026 | 复旦开源OmniLottie:首个端到端多模态矢量动画生成框架

同时,我们始终保持着清醒的行业认知:尽管 OmniLottie 实现了质的飞跃,但当前系统仍非止境,在面对极端复杂的交互场景时,仍需进一步的技术攻坚以填补最后的一丝精度缺口。通过建立统一的数据格式与评估标准,该数据集极大地推动了矢量动画生成领域的标准化进程,为社区后续研究提供了坚实的底层支撑。我们坚信,OmniLottie 所开启的这一技术范式,已然点燃了矢量动画智能创作的火炬,终将照亮由 AI 驱动的创意设计未来。,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注。

2026-04-03 12:36:45 633

转载 南京大学等联合发布开源语音大模型VITA-Qinyu,首发支持角色扮演+哼唱

在原有交错文本-音频建模的基础上,模型引入了多码本音频令牌,既实现了更丰富的副语言特征表征,又保证了音、文模态的清晰分离,避免相互干扰,从底层解决了「表达丰富性」与「模态稳定性」的矛盾。该角色是一个青年男性,身份是穿越者/现代灵魂,性格跳脱吐槽、偶尔迷茫,气质违和,音色自然,带现代口语。该角色是一个青年女性,身份是苗女/异族少女,性格直率泼辣、敢爱敢恨,气质野性奔放,音色独特,带口音。对高分样本做情感分析与口语改写,生成。从基础的语音交互优化,到个性化的角色音色定制,再到歌唱能力的升级、垂直场景的适配,

2026-04-03 12:36:45 71

原创 Claude Code泄露的源码里,藏着一套让AI学会「做梦」的记忆架构

当满足以下条件时触发会话记忆提取:自上次提取以来的 token 增长量大于最低更新 token 间距,并且(自上次提取以来的工具调用次数大于工具调用更新间距,或在最近的助手交互轮次中没有工具调用)。总有一些你不认识的人,知道你想知道的东西。在所有被曝光的内部机制中,除了作为彩蛋的电子宠物(BUDDY),最具技术深度且最引人瞩目的,是 Claude Code 底层那套庞大且精密的。这一机制在逻辑上高度拟合了生物学的睡眠记忆巩固理论,系统会将近期的碎片化经历进行回顾、梳理,并最终整合进长期的知识体系中。

2026-04-01 18:51:08 780

转载 美团ICLR 2026中稿精选:突破Agent长程记忆,解析混合专家模型

为摆脱以往依赖模块化管线与固定版式规划的上限,作者提出统一生成框架,通过级联训练流程逐步释放基础模型能力:先用大规模Text-Render-2M进行文本渲染优化,再在HQ-Poster-100K上进行区域感知的高质量海报微调以平衡文本/非文本区域风格,随后基于偏好数据Poster-Preference-100K进行审美-文本强化学习,最后引入Poster-Reflect-120K与联合视觉-语言反馈实现迭代精修与更强一致性。此外,SE 的分布具有模型特异性,与数据无关,并且不受训练后处理过程的影响。

2026-04-01 18:51:08 158

原创 嫌Muon太吃算力?Mamba作者团队巧用Gram矩阵,实测提速两倍

Gram Newton-Schulz 通过底层的数学逻辑重构与针对性的数值稳定性修复,以及 GPU 架构级别的定制算子优化,打通了现代优化器在大规模并行训练中的效率瓶颈。由于这两部分对激活函数的梯度贡献机制不同,拆分处理不仅使 Llama-430M 的验证集困惑度优化了约 0.2,更通过减半矩阵的小维度,使得依赖。在万亿参数大模型的竞逐中,训练效率的细微差距往往关乎巨大的算力成本。更关键的是,算法执行期间产生的诸多中间矩阵具备对称结构,常规计算路线未能有效利用这一数学特性,导致半数计算工作冗余。

2026-03-31 17:37:24 539

原创 GNN能debug吗?北大团队开源GREPO,10M小GNN超越大型LLM

评测时论文重点报告 9 个代表性仓库(astropy、dvc、ipython、pylint、scipy、sphinx、streamlink、xarray、geopandas)的测试集表现,并额外提供 0-shot 设置(这 9 个仓库完全不参与训练)以检验跨仓库泛化。GREPO 的规模允许做“像 NLP/视觉那样”的 scaling 实验:随着训练仓库数量从 10→20→40→77 增加,GAT 在 0-shot 设置下的各项 Hit@K 持续提升,提示存在可迁移的仓库级定位能力。筛选有效修复 PR。

2026-03-31 17:37:24 625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除