自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Paper weekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可.

  • 博客(5548)
  • 收藏
  • 关注

转载 GUI智能体“大脑”升级!浙大&港理工等提出InfiGUI-R1,用强化学习实现深度推理

一个简单的“反应行动”式 Agent 可能会按顺序点击它认为相关的按钮,但一旦遇到预期外的界面(如弹窗广告、加载失败),就容易卡壳或出错,因为它缺乏“规划”和“反思”的能力。它证明了通过精心设计的训练方法,即使是小规模的多模态模型,也能被赋予强大的规划、推理和反思能力,从而更好地理解和操作我们日常使用的图形界面,向着真正“能思考、会纠错”的 AI 助手迈出了坚实的一步。这意味着智能体的行为模式需要从简单的“感知 -> 行动”转变为更高级的“感知 -> 推理 -> 行动”模式。

2025-05-13 13:06:31 221

原创 ICLR 2025 | 告别Token丢弃:更适合CoT和多轮对话的长文本推理加速方法

实验(图4)表明,在 2WikiMQA、HotpotQA 和论文提出的 2StageRetr 等多步推理任务中,OmniKV 在各种显存预算下都显著优于 H2O 等丢弃 Token 的方法,展现了其在复杂推理场景下的鲁棒性和优越性。图 1b 和 1c 的分析表明,在多步推理(如 CoT)中,不同生成步骤所依赖的关键 Token 是动态变化的。在单个生成步骤内,被模型高度关注的(即注意力得分高的)Token 集合,在不同的 Transformer 层之间表现出高度的相似性。▲ 图4:多步推理任务性能对比。

2025-05-13 13:06:31 708

原创 92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍

本文介绍了 VITA-Audio,这是一个轻量级框架,其核心在于引入独立高效的多重跨模态令牌预测(MCTP)模块,能够直接从文本 Token 与 LLM Hidden States 中生成音频响应,无需依赖 LLM 的全局语义建模,仅通过简单映射即可完成文本隐藏态到音频令牌的转换。在前两次前向中仅激活部分 MCTP 模块,保以维持文本与音频 Token 的合理配比(1:2),随后逐步激活部模块,通过动态调节文本/音频 Token 输出比例,实现生成速度与质量的最优平衡。

2025-05-12 12:32:53 451

转载 从命题逻辑到高阶推理:北大、清华等联合发布大模型逻辑推理能力最新综述

在可信性中,逻辑一致性至关重要:具有逻辑一致性的大模型可以有效避免不同问题的回答之间产生矛盾,从而减少大模型幻觉,增强终端用户在实践中对大模型可靠性的信心。下图展示了一类通用的提升大模型回答的逻辑一致性的方法框架,首先对每个问题生成多个候选回答,然后对不同问题的回答计算逻辑一致性的违背程度,最后优化求解为每个问题选择一个最优答案使逻辑一致性的违背程度降到最低。为了更好地理解大语言模型逻辑推理能力的边界,探索更有效的技术方法,研究者们开发了许多相关的测评任务与基准数据集,用于评估大模型在逻辑问答任务的性能。

2025-05-12 12:32:53 163

原创 CVPR 2025 | “点级+提示级”双采样黑科技!MICAS重新定义3D点云上下文学习

这个机制将任务特征和当前点云的特征结合,通过正态化的 sampling weights 生成最终的采样结果。:通过对任务自适应点采样和查询特定提示采样的联合使用,MICAS 在所有被评估任务中均显著超越现有技术,特别是在部件分割任务中,性能相较于前作提升了 4.1%。3D 点云处理(PCP)涉及多种任务,如重建、去噪、配准、分割等,传统做法往往为每个任务设计特定模型,导致模型繁杂、成本高昂。利用任务相关的信息,优化每个点的采样过程,以提高不同任务间(例如重建、去噪、配准、分割)对点的选择精度。

2025-05-12 12:32:53 621

转载 博士申请 | 复旦大学智能人机交互实验室招收2026级硕博生(夏令营/推免)

无论您是充满好奇心的本科生还是对研究充满热情的研究生,只要您有志于在通用人工智能时代,开展大模型与智能可穿戴、具身智能系统相融合的人机交互的学术研究,这里将是您的理想起点。我们探索基于大模型技术的具身智能系统的人机协同,专注感知、认知、决策和行动能力,特别是与人在物理/虚拟环境交互中的情感与认知链接。我们探索模型的学习机理,研究大模型学习中的稳定性问题、计算复杂度问题、高效学习问题,探索模型在与人与世界交互过程中一学就会、触类旁通、永不遗忘、无师自通的模型学习新范式。研究设计端侧个性化小模型技术。

2025-05-09 14:04:28 241

原创 模型崩溃自救指南:5行代码实现TTA鲁棒性飞跃,天大×腾讯开源COME方案

中图中可见,从第 200 个 epoch 开始,在模型过度自信预测的同时,模型出现了预测准确率大幅下降的情况,我们把这种情况称作模型崩溃;从右图中的假阳性率的走势也可以看出,在模型过度自信预测的同时,模型几乎丧失了分类预测的能力。左图中可见,在逐个 epoch 的 TTA 过程中,Tent 方法和 SAR 方法都会持续地增强预测的信心,max softmax probability 值持续走高,出现模型过度自信预测的情况。:EM 强制模型对所有测试样本输出低熵预测,导致对错误分类或异常样本的置信度过高。

2025-05-09 14:04:28 552

转载 RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。通过实验,本文证明了强化学习(RL)在奖励建模中的有效应用,显著提升了模型的表现。更有趣的是,他们发现通过在推理时多做几次计算(比如采样 5 次或 15 次,然后投票选最多的答案),R1-Reward 的性能还能进一步大幅提升,这说明 RL 方法在优化奖励模型方面潜力巨大。

2025-05-09 14:04:28 35

转载 CVPR 2025 | 单图生成3D人体:港科广团队提出分层高斯建模框架MultiGO

MultiGO 的分层高斯建模技术通过将人体分解为不同精度层级(从基础体型到衣物褶皱和材质纹理逐级细化),并利用高斯溅射点作为 3D 基元实现高效、高保真的单图重建,使其在虚拟试衣与时尚电商(实时生成可动态调整的 3D 人体与服装模型)、游戏与元宇宙(快速创建个性化虚拟角色并支持细节编辑)以及影视特效(高精度动态人体重建与后期分层调整)等领域具有突出优势,尤其适合需要快速生成且对真实感和多尺度细节还原要求高的应用场景。从一张照片重建出逼真的带纹理的人体 3D 模型一直是计算机视觉领域的难题。

2025-05-09 14:04:28 106

原创 「不思考」反而更强?上海AI Lab重新定义视觉强化学习微调最优路径

原因可能是 2B 和 7B 基础模型在拼图任务上的推理能力较弱,因此在 RFT 过程中生成的推理链会妨碍学习过程,而 Think-After-Answer 的表现明显优于常规的带思考的 RFT。对于 7B 模型,三种方法的结果相似。因此,少样本微调成为了一个有前景的替代方法,尤其是在对比视觉-语言模型中的应用,但在自回归的 MLLMs 中的应用仍未得到充分探索,需要更深入的研究。而在 7B 模型上,三种方法在空间理解任务上的表现相似,但在数学问题上,带思考的RFT明显优于 No-Thinking-RL。

2025-05-08 12:37:51 834

转载 中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型

如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。随着大语言模型(LLMs)日渐“拟人化”,能写报告、能画图、还能“冲浪查资料”,不少人以为它们已能应对各种任务。尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人——研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”“搜得到”“推得准”大模型集体“翻车”?

2025-05-08 12:37:51 24

原创 WWW 2025 | 数据洪流→数据精炼:北理工等提出高效文本行人检索新范式

因此在图像编码器之中我们应用了 WoRA 方法,将预训练的权重分解为幅度和方向分量,并在 LoRA 的基础上同时添加 alpha 和 beat 两个可学习参数,从而达到更新幅度和方向分量。图像左侧部分显示了经过我们的筛选策略后保留的高质量图像及其对应的红色文本描述,而右侧的人物图像则表示被过滤掉的低质量图像文本对,这些文本对超过了阈值。:为了减少模型参数并提高计算速度,我们选择冻结部分预训练中的权重,通过优化在自适应过程中发生变化的秩分解矩阵,间接训练神经网络中的一些密集层。

2025-05-08 12:37:51 614

原创 ICLR 2025 | 从碎片到完整:面向语义完整且等价的多模态视觉分词新范式SeTok

同时,在指代表达分割的数据集上,我们的模型获得了更优的性能,实验结果如表 3 所示。然而,现有主流视觉分词方法通常将图像均匀划分为固定大小的网格 patch,这种过度碎片化的处理导致同一对象被割裂在多个 patch 中,破坏了视觉语义单元的完整性,同时导致高频视觉信息(如物体的边缘与轮廓)的大量丢失。为充分利用这一语义与空间联合嵌入的信息,我们引入了一个轻量级的掩码解码器(mask decoder),以生成的视觉 token 作为输入,预测图像中各语义概念的位置掩码(referring mask)。

2025-05-07 13:33:34 581

转载 推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降

PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。:把大模型压缩成小模型(比如从 300 亿参数压到 15 亿),但小模型解题能力直线下降;,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注。:大模型审核时,如果所有草稿都错,就启动“老板亲自上阵”模式。简单说,就是让小模型写的每一步草稿,都尽量接近大模型的习惯。:一键审核草稿,选中最好的直接交卷,发现全错就自己重写。:用大模型的解题过程当参考答案,训练小模型“抄作业”;

2025-05-07 13:33:34 1465

转载 北京内推 | 阿里夸克智能创新技术部招聘多模态算法研究实习生

4. 在国际顶尖会议或期刊(包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, AAAI, IJCAI, ACMMM, TIP, TPAMI, IJCV,ACL、EMNLP、NAACL、COLING、CoNLL、NLPCC等)上发表过论文者优先;团队负责夸克教育多模态大模型的建设工作,有机会接触到前沿的多模态大模型算法方案和工程框架,技术氛围浓厚,团队重视前沿技术创新,有顶会论文发表机会。面向多模态场景,研究探索多模态大模型的前沿技术,提升技术影响力。

2025-05-07 13:33:34 161

转载 博士申请 | 西湖大学吴泰霖老师招收AI for Science方向博士/博后/实习生

欢迎编程好、并对本课题组研究领域有强烈兴趣的同学报名。吴泰霖博士的主要研究方向为 AI for Science,开发基于生成模型、AI智能体、大模型的方法,用于科学中的核心、普适问题,包括基于生成模型用于科学中的仿真和控制问题(流体、能源、机械等),开发AI智能体等方法用于科学发现(物理、生命科学)。1. 生成式AI用于科学仿真、控制和设计:开发基于扩散模型、flow matching的生成式AI方法以及新一代的生成模型,用于大规模科学系统的仿真、控制和设计,并在流体、能源、机械、生命科学等关键领域应用。

2025-05-06 12:39:50 175

原创 爆肝万字!从JanusPro到UniTok,多模态大模型理解与生成的统一之路

他们设计了一个场景,让生成任务(T2I)的 token 和理解任务(MMU)的 token 竞争被模型选中(不被剪枝)。用同一个“裁判”(router)去决定所有任务里哪些 token 该被扔掉,就显得有点一刀切了,顾此失彼,可能会把生成任务需要的重要 token 给扔了,或者没把理解任务里的冗余 token 清理干净。而且,给 T2I 任务设计的路由器和给 MMU 任务设计的路由器,它们的“容量”(capacity,可以理解为剪枝的严格程度或者说保留 token 的比例)是可以不一样的。

2025-05-06 12:39:50 804

原创 大模型“快答”能力堪忧?中科院推出S1-Bench,直击大推理模型快思考短板

这些 LRMs 包括开源模型族,如 DeepSeek(深度求索)、Qwen(阿里)、Nemotron(英伟达)、Light-R1(360)、s1.1(李飞飞等人团队)、EXAONE(LG)和 Sky-T1(加州伯克利 NovaSky 团队),以及闭源模型 Hunyuan-T1(腾讯),其参数大小从小型(1.5B)到巨型(671B)不等。L-R1-DS 7B/14B/32B 模型生成的响应比 DS-R1-7B/14B/32B 模型更长,前者是在后者的基础上进行进一步的后训练。两者仅包含一个 ETM。

2025-05-06 12:39:50 527

原创 R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调

然而,现有提升推理性能的主流范式,往往依赖监督微调(SFT)与强化学习(RL)的结合,依赖于人工标注的推理路径、标准答案或额外的奖励模型。EMPO 是经典机器学习中熵最小化在大语言模型推理任务上的拓展,语义熵(semantic entropy)是经典的香农熵在大语言模型上的自然拓展,而前者已被广泛验证与大模型的错误(幻觉)输出有强的负相关性,因此语义熵最小化能够作为代理优化目标提升模型性能。上述结果表明,EMPO 能够降低模型在无标注数据上的语义熵,进而无监督提升了模型的性能。

2025-04-30 11:32:51 458

转载 ICLR 2025 | 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板

在语言建模任务中,DIFF Transformer 在模型大小、训练 token 数量等方面展现出了卓越的可扩展性,仅需约 65% 的模型规模或训练 token 数量即可达到与传统 Transformer 相当的性能,大幅提升了语言模型通用表现。如图 11 所示,在 8 个数据集上,DIFF Transformer 相较 Transformer 均有不同程度的提升,平均准确率提升了 7.5%,这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重要。

2025-04-30 11:32:51 33

转载 北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec,实现效率性能双突破

在多任务预训练阶段,我们将任务共享信息与任务特定信息分离,随后利用任务感知提示向量,将已有任务的知识高效迁移至新任务。我们提出了一种任务感知提示调优方法,将任务标签向量当作提示,组合在多任务预训练阶段训练好的任务特定表征当作新任务的特定表征,因此大大提高了新任务的训练效率。,精准攻克知识迁移中任务无关性难题:通过两阶段解耦和多任务提示调优机制,大幅降低任务无关噪声干扰对新任务的负面影响,实现新任务训练效率提升,新任务泛化性能显著增强。通过生成对抗机制的迭代优化,实现任务共享信息与任务特定信息的有效分离。

2025-04-30 11:32:51 18

转载 模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板

该机制在保持探索能力的同时,引导模型聚焦于低概率但关键的行动,从而实现推理能力的持续进化与泛化。如果模型只是模仿强者的解题步骤(如直接用专家轨迹进行监督微调),它或许能快速取得不错的表现,但很可能只是照猫画虎地套用了示范中的模式。通过上述技术创新,LUFFY 实现了“边学边练”的有效融合:模型能够在强化学习训练的每一步,都动态地决定何时该学习别人、何时该相信自己,从而逐步习得超越其起始能力的推理技能。最终,LUFFY 的模型既能吸收示范中蕴含的巧妙思路,又能持续拓展自己的能力边界。

2025-04-29 14:02:11 45

转载 GPU无上限+AGI顶尖课题!蚂蚁集团「Plan A」全球招募下一代AI领航者

⬇️点击阅读全文,一键投递简历。

2025-04-29 14:02:11 52

转载 33,000美元奖金池!Meta CRAG-MM挑战赛开启,多模态RAG巅峰对决

Meta CRAG–MM Challenge 是 KDD Cup 2025 的官方挑战赛之一,是一个专为可穿戴设备场景设计的视觉问答基准数据集,聚焦多模态、多轮对话任务,并通过引入检索增强生成(Retrieval-Augmented Generation, RAG)机制以提升生成内容的真实性。参赛者将面对一个高度现实化的任务:在面对复杂视觉线索(如图像)和语境信息(如说明、提示、对话历史)时,模型需要生成自然语言响应,做到准确理解、逻辑连贯、上下文契合。你是否对多模态生成、检索增强大模型(RAG)感兴趣?

2025-04-29 14:02:11 677

转载 ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限

如图 5 所示,上半部分表示训练中进行 mask 的过程,在得到整个 token 序列的重要性分数后,我们选取前 k 重要的 token 进行保留,相对应的生成掩码向量,其中 0 对应丢弃的冗余 token(不参与注意力过程的计算),1 对应保留的重要 token,进一步基于掩码向量生成注意力过程的掩码矩阵。我们有理由相信,Dynamic-LLaVA 的应用场景正变得更加广泛,其对输出文本 token 进行稀疏化的模式,会在当前的更长输出、更复杂推理的场景下,体现出更明显的推理加速优势。

2025-04-27 20:46:05 515

原创 深度学习基础架构革新?通过梯度近似寻找Normalization的替代品

理由是 Normalization 无脑地稳定了模型的前向传播,那么就留了更多的自由度和可能性给模型的其他方面(比如效果),所以笔者不认为比有 Normalization 更简化的通用操作能实现更好的效果(No Free Lunch)。当然,不看好归不看好,不妨碍我们的学习和分析。要想寻找 Normalization 的替代或者说近似,最直接的思路就是从梯度入手,因为深度学习说到底也就是前向传播和反向传播那点事,反向传播也就是求梯度,往往扮演着比较本质的角色。总有一些你不认识的人,知道你想知道的东西。

2025-04-27 20:46:05 678

转载 迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

FAR 不仅在短视频生成任务中,相较于 Video DiT 展现出更快的收敛速度与更优性能,同时也在长视频的 world modeling 场景中,首次实现了显著的长时序一致性。然而,视觉 token 在时序上具有局部性:对于当前解码帧,其邻近帧需要更细粒度的时序交互,而远离的帧通常仅需作为记忆存在,无需深入的时序交互。在基于 DMLab 的受控环境中进行实验时,我们观察到模型对已观测的 3D 环境具有出色的记忆能力,在后续帧预测任务中首次实现了近乎完美的长期记忆效果。,因此缺乏长时序的一致性。

2025-04-27 20:46:05 936

转载 英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!

本次比赛共设立 $22,000+ 奖金,冠军团队可独揽 $10,000 现金奖励,并有机会获得额外的算力资源!此外,四大关键任务(角色扮演、函数调用、机器人任务规划、RAG)各有 $3,000 专项奖励,创新性最佳方案还能赢得 $3,000 创新奖!本次挑战提供 400M 规模的预训练 Transformer 模型,参赛者需要利用自研的过滤技术对数据进行优化,训练出更强大的 Edge LMs。但在资源受限的边缘设备上,高效的语言模型(Edge LMs)更是依赖于高质量的数据。

2025-04-27 20:46:05 10

转载 CVPR 2025 | 5%参数反超全量微调!清华、国科大等发布视觉微调涨点神器

Mona 方法通过引入多认知视觉滤波器和优化输入分布,仅调整 5% 的骨干网络参数,就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果,显著降低了适配和存储成本,为视觉模型的高效微调提供了新的思路。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。

2025-04-25 13:14:22 198

转载 腾讯低调开源「作业终结者」:3B参数实现多模态SOTA,数学物理全通吃

如图,在 △ABC 中,AB=8,BC=12,点 D、E 分别是边 AB、AC 的中点,点 F 是线段 DE 上的一点,连接 AF、BF,若 ∠AFB=90°,则线段 EF 的长为()有确实有着出众的数学能力,从图片的公式理解到答案的推理求解,甚至格式的输出都有着令人满意的效果。测试过程中虽然也遇到了该级别模型的常见问题——如思考过程中的幻觉,特别是一些测试中,结果是正确的,但思考过程却明显失误。要说明的是,AI 作业助手,特别是数学作业助手,仅仅有答案还不够,更重要的是给出推导过程。

2025-04-25 13:14:22 202

原创 等到了!VLM-R1完整细节首度公开:RL的一小步,视觉语言模型推理的一大步

首次完整揭秘了 VLM-R1 如何用强化学习颠覆视觉语言模型——从 Reward Hacking 的破解妙招,到让模型突然开窍的 OD Aha Moment,再到 7B→32B 参数下的 Scaling Law 验证…更重要的是,整体框架完全开源!此外,研究还发现,高质量、语义丰富的训练数据能够显著提升模型的推理能力,而低质量或过于简单的数据则可能限制模型的泛化能力。在 OVD 任务中,使用官方的 AP 值作为奖励函数时,模型倾向于预测所有可能的类别以追求更高的奖励分数,导致冗余输出的问题。

2025-04-25 13:14:22 801

原创 CVPR 2025 | HD-EPIC定义第一人称视觉新标准:多模态标注精度碾压现有基准

为此,我们提出了 HD-EPIC 数据集,在真实厨房中采集 41 小时第一人称视频,并精细标注菜谱、营养、3D 感知、物体运动与视线轨迹,推动多模态AI在具身感知与交互中的深入发展。HD-EPIC 的视频包含了更全面的与菜谱相关的活动,如取材或预备食材。我们通过关联目标的运动轨迹,形成更长的轨迹序列,即“目标行程(object itineraries)”,以捕捉目标的连续移动过程。最终,如下图所示,我们总共生成了 26,650 个多选问题,覆盖 30 个问题原型,使其成为目前最大的视频 VQA 基准之一。

2025-04-24 12:32:07 598

转载 一张图片找出你在哪?o3-like 7B模型玩网络迷踪超越一流开闭源模型!

建筑的结构和风格,再加上红灯笼和文字等中国传统元素的存在,表明这是中国一个村庄或城镇的场景。” 这一表达体现了其交互式的推理能力,极大提高了推理过程中的感知能力,使其能够挖掘细致、模糊活容易被忽视的视觉线索,构建了一条连贯的视觉推理证据链。建筑的独特风格以及中国传统元素的存在表明,这里可能是云南省的一部分,云南省以其历经岁月保存下来的古镇和村庄而闻名。该任务要求模型在感知视觉信息的同时,推理出图像中视觉语义所隐含的高级逻辑关系,从而确定图像的拍摄地点,极其适合用于实现 o3-like 的视觉线索跟踪推理。

2025-04-24 12:32:07 210

原创 DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐

通过两阶段训练范式和历史重采样技术,SRPO 成功解决了数学与代码任务之间的冲突问题,显著提升了模型的推理能力和训练效率。实验结果显示,历史重采样在后期提升了输入训练的难度,促使模型持续增强推理能力,而非单纯增加输出长度,从而有效避免了 reward hacking。基于数学与代码能力的特性,第一阶段使用数学数据来训练模型,激发模型的深度思考能力,包括反思、回溯和分步推理。而仅仅使用数学数据时,模型的输出整体是变得越来越长,从初始的 500 左右变成最后的 2500,变长了 5 倍。

2025-04-24 12:32:07 871

原创 AAAI 2025 | 开放集跨网络节点分类!海大团队提出排除未知类别的对抗图域对齐

在开放集跨网络节点分类问题中,由于目标网络存在源网络未出现的“未知”类别,如像先前的闭集跨网络节点分类方法那样直接对齐源网络和目标网络的整体分布,则会把目标网络未知类别的分布与源网络已知类别的分布对齐,导致负迁移,从而加大识别目标网络未知类别的难度。因此,我们需先给目标网络中的节点分配伪标签。与计算机视觉领域的开放集域适应方法不同,该论文首次从图结构数据的角度,针对开放集跨网络节点分类问题,证明了同质性定理 1:即目标网络的节点,无论属于已知类别或未知类别,均倾向于与其具有相同类别的其他节点相连。

2025-04-23 13:20:41 564

原创 多模态幻觉新突破!NUS、复旦团队提出跨模态偏好优化新范式,幻觉率直降55.5%

观察结果:在 6 个数据集中,LLaVA+CHiP 在其中 5 个上优于 LLaVA,表现出 CHiP 在提升幻觉对齐的同时,不影响通用能力,反而在 MMMU、LLaVA-Wild、MMB-CN 等任务上略有提升。如图 2 所示,对比 LLaVA-1.6(图 2(a))与 DPO 增强的 LLaVA(图 2(b))可以发现:尽管后者在图像-描述表征对齐度和幻觉/非幻觉描述区分度上有所改进,但其优化效果与期望效果差距甚远。(3)T 太大 → 信息丢失严重 → 模型区分太容易,弱化了视觉偏好学习。

2025-04-23 13:20:41 794

转载 博士申请 | 中佛罗里达大学计算机系尚玉章老师课题组招收人工智能全奖博士/博后

在博士四年期间,他发表了16篇顶会论文,包括CVPR*6,NeurIPS*3,ICLR*1,ICCV*2,ECCV*3,ICRA*1,其中九篇为第一作者。学校坐落于美丽的奥兰多,此处为美国最佳的度假胜地之一,有迪士尼,环球影城等。著名的AMD,西门子,德州仪器,洛克希德马丁,三菱,通用,亚马逊等高科技公司都在奥兰多设有分部并与中佛罗里达大学有着密切的合作,提供许多优质的实习和工作机会。奥兰多位于佛州高科技走廊中心,有顶尖的国防航空,建模仿真,高科技和媒体游乐产业。,助你先人一步投递,快人一步入职!

2025-04-23 13:20:41 91

转载 INTJ式学术暴力!清华团队造出“论文卷姬”:3分钟速通200小时文献综述

再小众晦涩的领域,只要告诉我关键词,我会快速在海量论文中筛掉灌水资料,把核心文献拧成知识脉络,最后生成有深度、有逻辑、有洞见的综述内容。,通过综合更⼴泛的信息,挖掘不同内容之间的潜在联系,实现更全⾯、有深度的⽂本表达。会搜索很多网页,正文的表格较亮眼,能综合很多信息,但信息不够具体,例如没有指定地点、时间段、信息来源等,另外也存在大部分篇幅简单罗列事实的问题,缺乏选择性整合与批判性思考。的导言部分从历史开始说起,逐渐切入时事,娓娓道来,是一个很有深度的分析,结论分析更见功力,角度全面,思维缜密。

2025-04-22 17:35:04 714

转载 北京/杭州内推 | 淘天集团直播AIGC团队招聘多模态内容理解方向算法实习生

团队由国内外顶尖高校和实验室毕业的硕士博士组成,聚焦于直播场景下多模态大模型、大语言模型、扩散模型等基础模型应用研发,助力淘宝数字人直播和直播内容理解。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。2. 负责直播内容的多模态特征提取与分析,涵盖视频、音频、文本等多维度信息的融合理解;负责直播场景下的多模态理解算法研发,包括主播意图理解、商品识别及场景解析等核心技术;4. 构建直播场景知识图谱,实现主播、商品、用户行为等多维数据的知识沉淀与应用;

2025-04-22 17:35:04 103

转载 打破共识优化壁垒!华南理工深耕分布式进化计算,实现多智能体高效协同

在智能城市、智能电网、无人系统等前沿应用不断扩展的今天,多智能体系统(Multi-Agent Systems, MAS)作为新一代智能协同的技术基础,正迎来前所未有的发展机遇。近年来,分布式共识优化逐渐成为机器学习、运筹优化、群体智能等多个交叉领域的研究热点,聚焦如何在仅依赖本地信息和邻居通信的前提下,实现全局目标的优化与智能体之间的解一致性。这一过程的核心挑战之一,便是。竞赛模拟多智能体在不同通信拓扑、目标函数异质性、冲突环境下的协同场景,吸引了众多研究团队参与,推动了算法性能与工程适配的共同进步。

2025-04-22 17:35:04 74

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除