- 博客(4931)
- 收藏
- 关注
转载 这些好发论文的创新思路,学到就是赚到!
物理信息神经网络(PINN)的核心思想是利用神经网络的强大拟合能力,结合物理信息(如偏微分方程PDE的约束)来求解复杂物理系统的建模问题。与传统数值方法不同,PINN通过将PDE作为正则化项嵌入神经网络损失函数,使网络在训练过程中同时学习数据分布和物理规律,从而实现端到端的物理建模。推导的关键在于,通过物理约束,网络能泛化到未观测区域,减少对大量数据的依赖。针对界面问题(如多相流),Adal-PINN通过自适应采样策略,优先关注界面区域,提升求解效率。对这个领域感兴趣的同学,我给大家准备了大量的学习资源。
2025-11-12 16:29:40
10
原创 解决Agent幻觉:HaluMem精准定位记忆系统的“说谎”环节!
想象一下,如果AI在与你多次对话后,仍然记错你的喜好、混淆事件细节,甚至虚构信息,这种“记忆幻觉”会严重破坏交互的连贯性和可信度。它通过三大任务(记忆提取、更新、问答)和两个大规模数据集(HaluMem-Medium和HaluMem-Long),系统性地揭示了记忆系统在不同操作阶段的幻觉行为。实验表明,当前记忆系统在覆盖、准确、更新和抗干扰方面存在明显不足,未来需从提取质量、更新逻辑和系统效率入手,构建更可靠的长期记忆机制。图5显示,所有系统在多数问题类型上准确率较低,尤其在多跳推理和动态更新任务上。
2025-11-12 16:29:40
167
原创 Meta提出数据筛选的理论:何时“少即是多”成立?
作者通过高维统计理论和随机矩阵方法,推导了测试误差的精确缩放定律,揭示了数据筛选的“相变”条件——即当生成数据模型的质量、筛选器的可靠性以及数据规模达到特定平衡时,激进的数据筛选不仅能提升性能,还能避免模型崩溃(Model Collapse)。然而,近期研究如LIMO(Less Is More)和s1方法发现,使用少量经过精心筛选的数据集,反而能获得更优的性能,尤其是在数学推理等复杂任务上。同时,与模型崩溃研究(如Shumailov et al.)结合,指出筛选是缓解问题的关键,而非完全避免合成数据。
2025-11-11 20:48:27
425
转载 给定“标价“的 LLM 智能体,能规划出“最优“路径吗?
CostBench 的研究超越了对任务成功率的传统评估,它深刻地揭示了当前大型语言模型在迈向真正自主智能(Autonomous Intelligence)过程中的一个根本性鸿沟:即在复杂、动态的世界中进行价值最优决策的能力。📊 在工具禁用、成本变更、偏好变更这三种动态阻断类型的环境下,模型的表现稳定下降,显示出其在面对外部干扰时的规划调整能力普遍不足,缺乏应对动态变化的稳健性。未来的智能体需要一个整合的认知框架,使其能够"思考自己的思考过程",从而进行更高效的自我校准和规划。
2025-11-11 20:48:27
11
转载 给定“标价“的 LLM 智能体,能规划出“最优“路径吗?
CostBench 的研究超越了对任务成功率的传统评估,它深刻地揭示了当前大型语言模型在迈向真正自主智能(Autonomous Intelligence)过程中的一个根本性鸿沟:即在复杂、动态的世界中进行价值最优决策的能力。📊 在工具禁用、成本变更、偏好变更这三种动态阻断类型的环境下,模型的表现稳定下降,显示出其在面对外部干扰时的规划调整能力普遍不足,缺乏应对动态变化的稳健性。未来的智能体需要一个整合的认知框架,使其能够"思考自己的思考过程",从而进行更高效的自我校准和规划。
2025-11-11 20:48:27
4
原创 Thinking with Video:一种全新的思考范式
为此,复旦大学等机构的研究团队提出了一种全新范式——“用视频思考”(Thinking with Video),通过视频生成模型(如Sora-2)在时间维度上统一文本与视觉推理。在视觉谜题中,Sora-2在颜色填充和形状绘制任务中平均准确率分别为67.0%和64.9%,接近部分VLMs(如Claude 4.5的68.6%),显示出一定的归纳推理能力。未来,研究者计划纳入更多开源视频模型,探索通过强化学习提升模型推理能力,并将文本语料转化为视频训练数据,进一步推动统一多模态模型的发展。
2025-11-10 18:40:04
557
转载 RL成本降幅超90%!Meta提出Agent训练新范式DreamGym
实验表明,DreamGym 在多种任务和Agent模型上均取得显著性能提升,尤其在非RL就绪环境中表现突出,为通用Agent的规模化训练开辟了新路径。强化学习(RL)被视为提升Agent适应性的关键路径,但传统RL依赖大量真实环境交互,成本高昂、任务多样性有限、奖励信号不稳定,且基础设施复杂,导致其难以规模化应用。如图所示,DreamGym 以种子任务为起点,通过经验模型与Agent的交互生成轨迹,并结合课程任务生成器动态调整任务难度,形成一个闭环训练系统。模型据此生成渐进式更难的任务,形成“课程学习”。
2025-11-10 18:40:04
18
转载 模型越大越公平?未必。看 FiSCo 如何把“礼貌偏见”量出来
FiSCo因此把答案拆解为“主张”(例如建议做什么、为什么、需要哪些资源、承担什么风险),用蕴含/矛盾/中立等语义关系进行对齐,再从统计上比较组间与组内的分布差,以对抗大模型生成的随机性,进而判断是否存在稳定的群体差异。落地上,团队可以从受保护属性与关键业务动作出发,设计只改属性不改背景的提示,针对每个模板做多次生成以覆盖随机性,然后把答案解析为“建议—理由—资源—风险”等主张,逐一进行语义对齐,最终在组间与组内做分布比较与显著性检验。更令人意外的是,“更大”或“更会思考”的模型并不总是更公平。
2025-11-09 23:58:16
45
原创 让LLM评判者学会“动手思考”:工具集成RL框架TIR-Judge
它通过强化学习,将代码执行与推理过程深度融合,使模型在训练中就能学会“用工具思考”,从而在评估时做出更准确、可验证的判断。TIR-Judge的核心是一个多轮交互过程:模型在面对一个提示和多个候选回答时,可以生成代码块并执行,根据执行结果调整推理,最终输出评分或偏好。数据集同时包含可验证任务(如数学、代码)和不可验证任务(如聊天、安全),确保模型既能学会使用工具,也能在不需要工具时纯靠推理。在控制实验中,关闭代码执行后,模型在推理与指令遵循任务上表现下降,但在文本中心任务(如聊天、安全)上略有提升。
2025-11-08 22:22:53
399
原创 从“一个答案”到“一片森林”:如何用一句提示破解“模式崩溃”难题
简单来说,就是模型在面对一个开放性问题时,倾向于反复生成几种“最典型”的回答,而不是展现出其预训练阶段学到的丰富多样性。例如,当你让模型“讲一个关于咖啡的笑话”时,它可能每次都输出同一个笑话,而不是像人类那样创造出多种不同的笑点。当多个回答在真实效用上相当时(例如创意任务),典型性偏见就成为“决胜局”,导致模型只输出最典型的那个回答,从而引发模式崩溃。近年来,大型语言模型(LLM)在各类任务中表现出色,但在经过“对齐训练”(如基于人类反馈的强化学习RLHF)后,模型往往会出现一种称为。
2025-11-08 22:22:53
633
原创 刘鹏飞组发布上下文工程2.0:人机交互的全新视角
从早期的普适计算、上下文感知系统,到如今的大语言模型与智能代理,上下文工程经历了深刻的演变。这篇论文的价值不仅在于技术层面,更在于其哲学思考:随着机器智能的提升,上下文工程将逐渐从“人适应机器”转向“机器理解人”,最终可能实现机器对人类意图的“上帝视角”。论文开篇引用马克思的名言:“人的本质是一切社会关系的总和”,指出个体是由其所在的上下文所塑造的。想象一下,你正在和一个智能助手对话,它不仅能理解你刚刚说过的话,还能记住你之前的偏好、当前的环境状态,甚至你未说出口的意图。这种“默契”背后,是一门被称为。
2025-11-07 14:48:05
395
转载 Paper2Page: 让每一篇论文都能“自己长出”一个项目主页
我们适配了多种模型,你可以自由的选择使用qwen的api,还是gemini或者gpt的api。它不仅是一个工具,更是研究者的协作伙伴,让科研成果的传播从此不再是负担,而成为成果价值放大的重要一环。这些页面不仅忠实呈现了论文的核心思想,还能根据用户指令快速微调样式、调整内容结构,让研究者无需写一行代码,就能拥有一份足以出现在顶会主页的“在线论文名片”“规划师”智能体首先深度解析 PDF,将文本、图表、表格等信息解构为可用素材,并重新组织为网页友好的叙事蓝图,确保逻辑清晰、结构合理。
2025-11-06 15:28:07
26
转载 EMNLP 2025 Oral|检索增强 + 两阶段微调:剑桥提出有害内容检测大模型RA-HMD,性能SOTA
传统的decoder-only语言模型适配检索的方法常导致语言生成能力的完全丧失,而RA-HMD的设计则在不破坏LM Head的前提下,让单一模型能够同时完成检索、分类与解释生成三类任务。为解决解码器模型无法兼顾检索与生成的问题,RA-HMD在LMM后接入可训练的MLP投影模块,生成可用于分类与检索的特征表示;RA-HMD融合了检索增强学习与对比微调机制,在保持语言生成能力的同时,显著提升了检测与泛化表现。冻结LMM,仅微调MLP与分类器,引入对比损失,结合分类损失,强化特征一致性与检索能力。
2025-11-06 15:28:07
37
转载 爆肝更新了176个即插即用模块!一次性可全部获取
论文提出 U-RWKV 轻量化医学图像分割框架,核心是引入可即插即用的方向自适应 RWKV 模块与阶段自适应挤压激励模块,结合 U 型编解码器,以 O (N) 计算成本高效建模长距离依赖、平衡细节与语义捕捉,提升分割性能,适用于资源受限场景。论文提出可即插即用的SimVP视频预测模型,完全基于CNN,以“编码器-转换器-解码器”架构提取空间特征、学习时序演变并重建帧,仅用MSE损失端到端训练,无需复杂模块与策略,在多数据集实现SOTA性能且训练成本低。等都包含在内,最新的经典的也都有。
2025-11-04 21:55:17
22
转载 别再只关注KV Cache了! LLM稀疏性新洞察:为何模型越深越稀疏?UNCOMP从矩阵熵给出答案
我们进一步分析发现,最佳的压缩性能和最终的准确率的权衡并非来自于寻找最优的累计注意力分布,而是来自于对“信息流模式”的模仿。这不仅完美解释了深层网络的稀疏化现象,也为我们的压缩策略提供了坚实的理论基础。我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解LLM内部的信息动态。当压缩后KV Cache的逐层熵变趋势,与原始全尺寸Cache的趋势高度相似时,模型性能最好。我们相信,UNCOMP不仅是一个工具,更是一扇窗口,帮助我们理解LLM内部复杂的信息压缩行为。
2025-11-01 00:20:35
50
原创 量化噪声竟是RL秘钥?QeRL:高效强化学习新范式,一场噪声引发的性能革命
QeRL框架巧妙融合了NVFP4(一种高性能4比特浮点格式)量化与LoRA(低秩适配)微调,不仅实现了训练速度提升1.5倍以上、内存占用减半,更首次在单张H100 GPU上完成了320亿参数模型的RL训练。在GSM8K上,QeRL在7B模型上取得90.8%准确率,超越16比特LoRA(88.1%),匹配全参数训练(91.2%)。传统认知中,量化噪声是训练中的“干扰项”,但QeRL团队发现,在RL环境下,这种噪声反而能增加模型输出的不确定性,鼓励模型尝试更多可能策略,从而找到更优解。
2025-10-29 11:17:28
298
转载 越来越感觉 Agent 是未来的方向了
论文提出自适应变换单智能体(AᵀA),以Hunyuan-DiT为基础,通过含反向排列PosAgent块的RDT模块预测位移、调整主体位置,加位置切换嵌入支持“自适应/固定”模式,经混合训练后,在文本引导的背景补全任务(可变/固定主体位置)中表现优异。论文为提升大模型智能体多轮协作能力,建了ColBench基准(含编程、设计场景),提了SWEET-RL算法——让智能体借训练时额外信息练优势函数、再优化策略,解决传统RL问题,使Llama-3.1-8B性能升6%,比肩GPT-4o。
2025-10-29 11:17:28
38
原创 传统训练效率很低?我们靠 “给模型降噪” 重新审视长上下文建模难题
我们通过积分梯度分析揭示了噪声对模型注意力的干扰机制,并据此设计出高效的梯度检测方案,实现了训练过程中对关键token的精准识别与噪声的主动抑制。CDT 在传统语言建模目标的基础上,在训练过程中显式地抑制上下文噪声,以增强模型对关键token的注意力,并帮助强化关键 token 与预测结果之间的关联。我们这个方法能够具有如此巨大的改进效果,也归因于我们CDT 的训练过程符合如图 12所示的EM的特性:模型通过迭代识别关键 token 并优化训练,持续提升长上下文处理能力,最终在大约 250 步后收敛。
2025-10-28 14:52:27
952
转载 自适应Agent基础模型:从“会推理/会用工具”到“懂得取舍的执行者”
chain-of-agents: end-to-end agent foundation models via multi-agent distillation and agentic rl:通过多智能体蒸馏与 Agent 式强化学习实现端到端的智能体基础模型。: APO 强制模型在三种模式下进行 roll-out(包括被迫选择模式和自动选择模式)以估计各模式在该任务上的效果。路由机制 (“Route-then-Align”):模型先根据任务特点判断使用哪一种模式,再在选定模式下生成轨迹。
2025-10-28 14:52:27
28
转载 CVPR遇见世界杯!足球VQA挑战赛开启,千元美金大礼等你来拿!
🔗 挑战赛规则 (https://github.com/jyrao/SoccerAgent/blob/main/Challenge.md)🔗 挑战集评估页面 (https://www.codabench.org/competitions/11087/)🔗 SoccerNet 官方网站 (https://www.soccer-net.org/):挑战涵盖文本、图像、视频三大模态,共14项精细足球理解任务,全面考验AI的综合能力。:考察模型对球员、球队、裁判、场馆等背景知识的掌握,以及对特定比赛局势的理解
2025-10-27 17:15:41
69
转载 大模型是否对问题难度有预判?最新研究揭示 LLM 内部的“难度感知机制”
右侧展示了使用探针识别注意力头模式的过程,其中困难问题的注意力头的难度分数减去简单问题的难度分数得到一个分化分数,用于定位对难度最敏感的注意力头。:通过缩放这些头的输出(如将“简单头”×0.1、“难题头”×2.0),可显著操控模型对同一问题的难度判断(见原论文表 1),证实其功能性作用。作者承认,模型对一个问题的输出的熵越高,表明模型的不确定性越强,通常问题也确实越难,但这似乎不完全代表模型所认为的难易。大模型不仅能感知问题难度,而且这种感知是结构化的、可定位的,甚至藏在特定的注意力头里。
2025-10-27 17:15:41
67
转载 报名 | NICE EMNLP 创投与学术之夜
NICE 诚意打造EMNLP Startup Night——一场专为 Generative AI 建设者而设的鸡尾酒晚宴,诚邀每一位在AI浪潮中前行的你,共同点亮这个灵感之夜。扫码报名,由于场地限制,我们寻觅与本场活动契合度高的伙伴,会通过邮件通知报名成功;在AI创业的黄金时代,我们为全球顶尖的青年学者、教授、创业者与投资人,在大会楼下专属空间营造一方深度连接与自由碰撞的平台。杨丰瑜|优理奇(UniX AI)创始人,国际具身智能领域青年学者与创业者,“福布斯30 Under 30”
2025-10-26 16:53:50
114
转载 重新思考RLVR中的熵正则:从探索不足到探索过度的破局之路
展望未来,随着强化学习成为大模型后训练的主流方法,如何实现稳定、可控、高效的探索,将成为释放大模型潜力、突破性能瓶颈的核心议题。而在如此庞大的词表中,哪怕只把一点点概率质量从高义词(如“因此”)挪到无意义词(如“<”“#@$%”),也能带来显著的熵增。通过系统的实证分析,我们发现传统的探索机制在大规模动作空间和长序列生成中极易失衡,导致模型陷入熵崩塌和熵爆炸的困境。在每个生成步骤中,将熵的计算范围严格限定于概率最高的核心token集合,确保探索仅在语义合理的候选词中进行,避免无效探索。
2025-10-26 16:53:50
39
转载 直播预约 | 模拟、诊断与医学推理的AI实践
研究聚焦医疗人工智能与健康信息学,涵盖大语言模型在生物医学与临床教育中的应用(如 AIPatient 多智能体系统)、电子病历挖掘、健康政策与社会媒体健康行为分析等;研究聚焦于医疗人工智能、视频行为分析、健康信息学、AI智能体及多模态大语言模型,特别关注其在自闭症谱系障碍等精神科学领域的应用。致力于数字精神科学、医疗人工智能、健康信息学及多模态大语言模型等方向的研究,参与多个美国自然科学基金(NSF)和美国立卫生研究院(NIH)科研项目,发表高水平论文30余篇,担任多个国际期刊青年编委和审稿人。
2025-10-24 23:00:00
114
转载 规范对齐:回答前的深思,让安全与行为边界更清晰
面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边界,清楚哪些可以回应,哪些必须避免。然而,现实中的规范并非一成不变,而是充满差异。:规定模型如何更好地发挥作用,体现制定规范的用户或组织的偏好,包括内容偏好、目标导向、输出格式和表达风格等。,覆盖 5 大应用场景、103 条规范和 1500 条数据,并通过对 33 个主流模型的全面评测,揭示了它们在规范对齐上的不足。它让模型在推理阶段先针对规范进行深思,然后给出答案,从而在不改动模型参数的情况下,更好地贴合既定规范。
2025-10-24 20:00:00
37
转载 2025年,Agent注定失败?!
除了个人科研成绩突出,更有丰富的论文辅导经验,不仅自己能写出顶会一作,更指导出多名发独立一作论文的学生,满足各个方向的辅导需求。”看完才发现,还真不是危言耸听。毕竟当身边重复劳动岗位可能被智能体代码影响时,对我们来说,更重要的是抓住技术迭代的红利,尤其是在学术领域,现在。不止是交付论文初稿就结束服务,针对指定服务方案的学员,哪怕遇到拒稿、退稿情况,也会提供免费修改优化的维护服务,1v1量身制作您的科研课程,不同的分区价格不同,课程顾问会根据你的情况给你做详细的介绍,以及后期的学习规划。
2025-10-24 16:48:11
36
原创 超越对数似然:模型能力连续体下的监督微调新范式
本论文挑战了这一默认设定,提出了一种基于概率的目标家族,并引入“模型能力连续体”的概念,系统性地分析了不同目标在不同模型能力下的表现。例如在Qwen2.5-7B上,NLL的精确匹配为35.20%,而-p为0.00%,说明在缺乏先验的任务中,必须依赖NLL的“纠错”机制。例如,数学推理任务在LLaMA-3的预训练数据中占比达25%,模型在训练集上的平均预测概率高达0.8。这一分类不仅基于预训练数据的统计,还通过模型在训练集上的初始预测概率进行量化(见表6),使得连续体概念既有理论依据,又具可操作性。
2025-10-24 16:48:11
593
转载 复旦教授眼里的多模态大模型研究热点!idea满满
2024年,《Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models》,arXiv(预印本平台,领域高关注度论文)作为当前技术核心,多模态大型语言模型(MLLMs)并非单一模态的升级,而是将大型语言模型的自然语言处理能力,与视觉、音频等多模态数据的理解、生成能力深度融合。多模态大模型:从 “检索” 到 “问答”,成果覆盖全场景。
2025-10-23 11:57:02
80
转载 EMNLP 2025 同行者集结!一个高质量线下交流群等你加入
这是一个纯粹、高效的交流平台,我们期待每一位对技术、创新和未来充满热情的伙伴。即将奔赴 EMNLP 2025 现场的你,准备好链接顶级人脉了吗?:快速找到志同道合的朋友,约饭、面基、组队逛会。期待在会场与你相遇!(上一个群已满,这是新群!如果满了,请加助手微信,备注:emnlp线下。创建了一个高质量的专属交流群。:与最优秀的同行交流前沿学术。长按识别下方二维码,立即加入。
2025-10-23 11:57:02
37
转载 直播预约 | 早期经验策略:让语言智能体学得更快、更稳
他的研究方向聚焦于数据在基础模型与智能体中的作用。华文越,Rutgers博士毕业,张永锋老师的学生,UCSB博后,现在为微软研究院高级研究员,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。此外,在具有可验证奖励的环境中,我们的实验进一步表明,早期经验为后续的强化学习提供了坚实的基础,有望成为模仿学习与基于RL的智能体之间的桥梁。
2025-10-22 23:47:55
18
原创 奖励模型“裁判”失灵?LongRM 突破长上下文瓶颈,8B模型性能超过 Gemini 2.5 Pro
我们选择了四个有代表性的现有生成式奖励模型(GenRMs)进行评估,包括两个基础 LLM:Llama-3.3-70B 和 Qwen3-8B,以及两个微调过的生成式奖励模型(GenRMs):Skywork-Critic-Llama-3.1-70B 和 Selene-1Mini-Llama-3.1-8B。为验证传统上下文扩展方法的有效性,我们选择了原生支持32K上下文的Con-J-Qwen2-7B模型,应用两种代表性的上下文扩展方法:免训练的位置插值方法YaRN和长上下文监督微调方法。
2025-10-22 17:38:02
737
转载 当下不得不看的RL领域经典论文与开源代码合集!
论文提出 KalMamba 方法,在强化学习中结合卡尔曼滤波与平滑,将线性高斯状态空间模型嵌入 latent 空间,用 Mamba 学习动力学参数,通过并行关联扫描实现高效推理,滤波信念用于策略学习,平滑信念用于模型训练,在保证性能的同时提升计算效率,尤其适配长序列。以种群的收敛、多样、可行性为状态,候选算子为动作,种群状态提升为奖励,训练Q网络选最优算子,嵌入CMOEAs后能优化算子选择,提升算法性能且通用性更好。相比RSSM、VRKN等基线,在保证性能的同时,显著提升计算效率,尤其适配长交互序列。
2025-10-22 13:31:57
37
原创 RL在Agentic Reasoning中的作用:拨开迷雾,看清本质
强化学习(RL)被引入以优化模型的推理策略,然而在智能体推理(Agentic Reasoning)中,RL的训练效率、稳定性和泛化能力仍面临三大难题:数据质量不足、算法探索不充分、推理模式不明确。论文测试了Qwen3-4B-Thinking-2507(一个擅长长链推理的模型),发现它在推理密集型任务中倾向于完全避免调用工具,仅依赖内部推理。根本原因在于Long-CoT模型需要同时学习新技能(工具调用)和抑制旧习惯(过度推理),而指令模型只需专注学习工具使用,效率更高。
2025-10-22 13:31:57
938
原创 哈佛发现基础模型比你想象中更强大:纯采样方法可超越RL
作者通过一种名为“幂采样”的无训练、无数据集、无验证器的纯采样算法,在多个推理任务上实现了与RL后训练相媲美甚至更优的性能。论文通过一个简单例子说明:在某些情况下,低温度采样会选择平均概率高但最终结果差的 token,而幂采样能识别出“关键 token”,引导模型走向正确推理。RL后训练倾向于生成长答案,而幂采样也自然产生类似长度的答案,说明它捕捉到了RL模型的“长形式推理”特性。:考虑所有未来路径的联合概率,更倾向于选择“虽然后续路径少,但每条路径概率高”的 token。α 过大或过小都会影响性能。
2025-10-21 19:06:26
892
转载 Flash-Searcher:Web Agent的并行革命
当DAG关系确定时,Flash-Searcher在单次推理中并行调度所有的分支,同步运行,同时在存在依赖的关系的节点时,通过不同的分支执行情况交叉验证,以显著提高任务成功率。工具配置上,Flash-Searcher 使用轻量级的 Search(Serper)+ Crawl(Jina Reader)双工具体系,并以同一模型执行自动化总结,从而在并行场景下保持一致的语义表示。Flash-Searcher 的依赖建模与动态重整机制保证逻辑一致性,通过获取更多的知识实现交叉验证的效果,实际准确率反而更高。
2025-10-21 13:26:53
45
原创 Temperature Scaling可大幅提高Test-Time Scaling瓶颈!
为了进一步提升性能,研究者提出了两种主要路径:一是通过强化学习(RL)训练模型生成更长、更复杂的推理轨迹,二是通过。在推理任务中,不同问题可能需要不同程度的探索:有些需要严格逻辑(偏好低温),有些需要创造性思维(偏好高温)。下,模型能解决的问题子集不同。这启发作者提出“温度缩放”的新思路:通过在不同温度下采样,整合模型的全部推理潜力。这就是“温度缩放”的核心思想——将样本均匀分配到不同温度,从而整合各温度下的可解问题集,扩大模型的推理边界。例如,一个在温度0.5下无法解决的问题,可能在温度0.7下被解决。
2025-10-21 13:26:53
270
转载 “大模型深度推理”论坛详情公布|LMG-2025
LMG是国内外大模型技术精英最期待的年度盛会,是极具行业实践的专业大模型交流平台,共同推进大模型技术的前沿发展和应用,助力中国在全球大模型和生成式人工智能领域的领先地位,为国家技术创新、产业升级及数字化转型提供有力支持。本次大会围绕“智汇天府,生成艺境”主题,除了邀请多位资深院士、学术专家及企业技术专家参与主论坛致辞报告外,还设置了18个分论坛,覆盖大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身智能、智能体、人文艺术智能等时下最受关注的技术议题。注册流程、缴费说明等请至注册网址查看。
2025-10-21 13:26:53
123
转载 “AI for Arts”主题音乐展演嘉宾介绍
LMG是国内外大模型技术精英最期待的年度盛会,是极具行业实践的专业大模型交流平台,共同推进大模型技术的前沿发展和应用,助力中国在全球大模型和生成式人工智能领域的领先地位,为国家技术创新、产业升级及数字化转型提供有力支持。本次大会围绕“智汇天府,生成艺境”主题,除了邀请多位资深院士、学术专家及企业技术专家参与主论坛致辞报告外,还设置了18个分论坛,覆盖大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身智能、智能体、人文艺术智能等时下最受关注的技术议题。“天府四川·乐之土地”——四川交响乐团。
2025-10-20 12:48:34
66
转载 博士想找个不错的教职,需要多少篇论文?
导师团队汇聚全球QS前100高校学术精英,涵盖英国牛津大学、美国加州大学、约翰・霍普金斯大学、清华大学、北京大学、复旦大学等世界一流学府,近年来个人论文产出量在10篇以上。有位博三学员,为了毕业进大厂,想多发一些顶会顶刊来提高自己能力,但自己导师散养,在实验阶段总遇bug,找到了。如果现在的你也在论文上犯难,别硬扛,试试用工具提效,毕竟早出成果,才能在求职时更有底气~推荐你们看看。以结果为导向,配套代码提升指导,GPU环境资源,提供维护服务,直至中稿!第1-2周:确定研究方向,筛选出 3 个备选课题。
2025-10-20 11:57:53
63
转载 “AI for Arts”主题展演嘉宾 - 朱霖老师
LMG是国内外大模型技术精英最期待的年度盛会,是极具行业实践的专业大模型交流平台,共同推进大模型技术的前沿发展和应用,助力中国在全球大模型和生成式人工智能领域的领先地位,为国家技术创新、产业升级及数字化转型提供有力支持。本次大会围绕“智汇天府,生成艺境”主题,除了邀请多位资深院士、学术专家及企业技术专家参与主论坛致辞报告外,还设置了18个分论坛,覆盖大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身智能、智能体、人文艺术智能等时下最受关注的技术议题。注册流程、缴费说明等请至注册网址查看。
2025-10-19 17:23:24
88
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅