- 博客(4428)
- 收藏
- 关注
原创 华人团队提出视觉推理测评标准,揭露SoTA模型残酷现状
例如一道对称性推理题,标准答案需要观察图形旋转规律,但若用文字描述,关键细节极易丢失(比如“黑色方块每次顺时针移动1格”可能被简化为“图形有移动”),导致纯文字模型根本无法解题。当前的多模态大模型(如GPT-4o、Gemini)看似能“看图说话”,但论文揭露了一个残酷真相:它们可能只是在玩“文字游戏”!更扎心的是实验数据:人类在这套新标准下的正确率是51.4%,而所有测试模型无一超过30%,甚至不如闭眼蒙答案(25%随机正确率)。最惨烈的是风格推理题,AI错误率超75%,比蒙答案还差。
2025-04-25 13:22:35
903
转载 揭开o3的神秘面纱,港中文/UIUC/普林斯顿联合推出OTC-PO,让你的Agent既聪明又高效
这里面存在一个认知卸载现象,比如模型就会过度的依赖外部的工具,从而不进行推理,这样一方面模型之前预训练积累的能力就极大地浪费了,另外也会出现非常愚蠢的使用工具的情况,举个例子就是我们俗称的遇事不思考老是问老师或者直接抄答案。需要注意的是这里面最少的工具调用次数是由模型和问题共同决定的,因为不同的模型有着不同的能力,不同的问题也有着不同的难度,这样就是每一个问题和每一个模型其实都有着独特的最小所需工具次数,并且这个最少的工具调用次数可以为0即退化为传统的language-only reasoning。
2025-04-25 13:22:35
384
转载 首届CogMAEC@MM’25研讨会求稿,探索认知驱动的多模态情感与共情智能
(认知导向的多模态情感与共情计算研讨会)立足情感智能的下一阶段发展,致力于推进AI在“理解情感根源”“模拟共情反应”以及“跨模态因果推理”等方面的研究与落地。系统演示论文(不超过 2 页,不含参考文献):征集介绍原型系统、工具平台或相关方法的短文,内容可以是新开发的,也可以是已有工作的补充展示,重点展示其实用性或评估方式。精选论文展示(提交标题、摘要及原始论文):欢迎已发表于顶级会议或期刊的高影响力论文,或经过精心整理、系统总结的研究成果,与本研讨会的核心议题密切相关。Lizi Liao|新加坡管理大学。
2025-04-25 13:22:35
28
原创 1.5B小模型+32B外援=28%准确提升+8倍提速?SplitReason实现推理过程“无缝接力”
用超大模型(DeepSeek-R1 671B)自动分析18万条数学题的推理过程,标注出20%最难的步骤,并打上。比如解方程时,写“设未知数为x”很简单,但后续的复杂计算可能需要更高智商。:进一步优化,奖励小模型“精准求助”——既不能乱喊救命,也不能硬撑到底。:通过卸载5%的任务给大模型,整体推理速度比纯用大模型快5-8倍。:负责80-95%的推理步骤,像实习生一样处理常规任务。:大模型仅处理5%的token,却贡献了关键解题步骤。即使随机让大模型处理5%的步骤,准确率也能提升20%
2025-04-25 13:22:35
409
转载 刚PhD毕业,聊聊如何一个季度完成一篇投稿
然后...找我的人更多了,但是真的带不过来了,于是我拉了几个其他学校的同样有教职的一线同学(没错,我也留校了,给的AP... 钱是真的少 你知道吗 哭辽),一起弄了一个小的辅导团队,也就是10个左右的老师,可以在国内外找一些学生,我们1v1自己带。我们从去年到现在,半年多了,带了好多学生了,目前EMNLP*2篇、ICLR*\2 篇,ACL投了一篇 Meta刚出分3.5 略微可惜,但最次也是Findings了吧(希望不要搞我),MM也投了3篇。,虽然说大家都想发论文,可是导师不行啊,有没有,放养啥的。
2025-04-24 11:52:33
171
转载 RL也能请“场外大神”?LUFFY打破模仿僵局,平衡探索与学习,解锁深度推理新境界!
该机制在保持探索能力的同时,引导模型聚焦于低概率但关键的行动,从而实现推理能力的持续进化与泛化。: 本次直播将围绕“即学即用”RL方法的核心思想进行详细讲解,结合LUFFY框架的创新与实验成果,展示如何突破传统RL局限,提升大模型推理效率。最终,LUFFY的模型既能吸收示范中蕴含的巧妙思路,又能持续拓展自己的能力边界。通过上述技术创新,LUFFY实现了“边学边练”的有效融合:模型能够在强化学习训练的每一步,都动态地决定何时该学习别人、何时该相信自己,从而逐步习得超越其起始能力的推理技能。
2025-04-24 11:52:33
191
转载 ICLR 2025 | Rodimus*:兼顾性能与效率的混合注意力机制
此外,Rodimus+ 引入共享键注意力(SKA), 一种无损的头部压缩方法,通过在所有头部之间共享一个键(Key)矩阵,同时保留每个头独立的值(Value)矩阵,如图 4。在推理阶段如下式,仅需维护固定大小的隐藏状态,从而实现 O(1) 的空间复杂度。Rodimus+-Coder-1.6B-Chat 和 Rodimus+-Coder-4B-Chat 的在代码任务上的性能也分别达到了与 Qwen2.5-Coder-3B-Instruct和Qwen2.5-Coder-7B-Instruct 可比的水平。
2025-04-24 11:52:33
82
转载 直播预约 | 如何让LLM通过RL又好又准地使用工具?
曾在 ACL,EMNLP,COLM,COLING,NAACL,ICLR 等多个学术会议发表论文十余篇,一作及共一论文十余篇,谷歌学术引用超 500,现担任 ACL Area Chair,以及 AAAI,EMNLP,COLM 等多个会议 Reviewer。我们的方法简单,高效,通用,泛化能力强。OTC-PO 则进一步解决教会模型如何少用、精用工具(如何“准”):我们引入效率权重奖励,让模型在保证正确率的前提下,主动权衡工具调用的收益与代价,实现工具使用的高效性与成本控制。加群通过小助手认证,群内无广告。
2025-04-24 11:52:33
17
原创 LLM Agent也能通过RL学会「思考」和「自我进化」吗?
但在「推箱子」等复杂任务中,Agent的「思考」只是应付格式,实际在瞎猜。论文发现,即使强制Agent输出「思考过程」(比如用<think>标签),如果奖励只看最终结果,会逐渐「偷懒」,变成「直接蒙答案」。传统方法只看单次动作的对错(比如一次数学题的答案),而StarPO要求Agent把整个任务流程(比如游戏的一整局)当作学习单元。举个🌰:玩「推箱子」时,AI不仅要考虑下一步怎么推,还要规划整个路径,避免中途卡死。:初期表现多样,后期却重复固定话术,比如总说「选龙臂,因为龙代表力量」,但实际是瞎蒙的。
2025-04-24 11:52:33
524
原创 中科院提出DEER:让Reasoning提前退出,推理提速50% 准确率涨10%
想象你考试时反复验算同一道题,最后反而改错了答案——这就是当前大型语言模型(如ChatGPT的“推理模式”)的困境。它们会像强迫症患者一样生成冗长的推理步骤,不仅拖慢速度,还可能“想太多”导致出错。: AI在解数学题时突然出现“Wait”,DEER会立刻让它输出当前答案。用“Alternatively”代替“Wait”作刹车信号,准确率更高但效率稍降。:监测“Wait”“Alternatively”等思考转折词。(简单理解:AI对自己答案的“自信程度”平均值)case:数学题中的“断点”决策。
2025-04-23 13:22:45
530
原创 综述 | GUI Agent:让AI学会「玩手机」的新革命
而今天的GUI智能体,结合了大语言模型(如GPT)和多模态模型(如图像识别),不仅能理解自然语言指令,还能像人类一样观察屏幕、规划操作步骤,甚至从错误中学习。传统方法依赖解析网页代码(如HTML),但现代AI直接分析屏幕截图,结合OCR文字识别和图标检测,甚至能理解动态弹窗。想象一下,你的手机里住着一个隐形助理:你说“把亮度调到50%”,它自动操作;:高分辨率下的小图标定位(比如手机设置里的“深色模式”开关),AI容易“看花眼”。:比如手机截图压缩后,AI可能把“返回键”看成“菜单键”。
2025-04-23 13:22:45
763
原创 清华提出Test-Time RL,无需标注,模型自学,正确率飙升159%,实现终身学习
如果模型太“笨”(如1.5B小模型),可能连投票都选不出靠谱答案,导致学习失败。这一步类似“群众的眼睛是雪亮的”——多数人认可的答案更有可能是正确的。面对一个问题(比如数学题),LLM先用当前能力生成N个答案(比如64个),相当于“多思考几种解法”。即使没有标注数据,TTRL训练后的模型表现接近“作弊模式”(直接用标注数据训练的效果)。即使投票选出的“参考答案”是错的,只要AI生成的答案与它不一致,也能获得正确反馈。模型越大,提升越明显(7B模型 > 1.5B模型),说明“学霸越学越强”。
2025-04-23 13:22:45
658
转载 哈尔滨工业大学(深圳)计算机学院陈科海老师招收硕博研究生
2020年获中国中文信息学会“优秀博士学位论文”奖,2022年获北京市科技进步二等奖,2023年获“鹏城孔雀计划”特聘岗位B档,2024年获“钱伟长中文信息处理科学技术奖”科技进步一等奖。主要研究方向聚焦于大模型、自然语言处理、智能体、多模态等,在ACL、ICLR、EMNLP、AAAI、TASLP等国际会议和期刊发表论文60余篇。陈科海,博士,哈尔滨工业大学(深圳)计算机学院教授,博士生导师,国家级青年人才。科研有热情,自驱力强,团队协作好,英语读写能力好,有志于从事科研探索;(两周内有效,先到先得),
2025-04-22 19:49:23
60
原创 通过Multi-Agent强化学习的LLM Meta-Thinking「元思维」综述
这篇论文描绘了AI进化的下一站:通过多智能体协作和强化学习,让语言模型从「快问快答」转向「深思熟虑」。未来,这种具备元思维的AI将在医疗、法律等高风险领域大显身手——毕竟,谁也不希望诊断AI因为「脑补」而开错药方。」这种「一本正经地胡说八道」现象,就是LLM的「幻觉」(Hallucination)就像我们写完作文会检查错别字,AI也需要「自我审查机制」,在输出答案前先问自己:「我的推理有漏洞吗?:给AI添加「记忆抽屉」(存储成功经验)和「焦虑开关」(遇到不确定时主动求助),让它们更像人类思考。
2025-04-22 13:56:11
696
转载 北航联合小红书发布大模型翻译最新研究成果,重塑社交生活化翻译新范式!
同时,翻译风格表达的适应更强:相比DPO仅基于大模型生成的偏好对排序优化,RePO 更能体现社交风格,例如,“you are not my type”翻译为“你不是我的菜”和“你不是我喜欢的类型”这类表达选择上,RePO的表现更贴合用户认知,提升了模型处理俚语、网络用语和文化特定表达的准确性,使翻译结果更贴合社交场景的使用习惯。硕士毕业于北京航空航天大学,小红书NLP团队算法工程师,在SIGIR、EMNLP等国际顶级会议发表多篇学术论文,研究兴趣主要为大模型后训练,Agent系统,大模型检索增强等。
2025-04-22 13:56:11
86
转载 ToolRL:开创工具调用RL Reward新范式,性能/泛化/效率/推理迎来全面质变
相比于传统强化学习研究往往单纯以「结果正确性」为唯一优化目标,ToolRL 在奖励信号设计上引入了更丰富的维度,不仅量化了“是否正确”,还反映了“工具名称”、“参数规范” 等多方面指标,弥补了现有方法对复杂工具链学习的欠缺。不同于传统的监督式微调,ToolRL首次系统性地探讨了强化学习范式下的工具使用训练方法,通过精细化的奖励设计,有效解决了工具推理中的泛化难题。,结合“格式规范”与“调用正确性”,确保模型不仅生成合理的工具链式思维,更能准确理解工具含义与调用语义,激发更好更精准的模型工具推理能力。
2025-04-22 13:56:11
102
原创 清华最新研究:强化学习竟是大模型的“应试教育”,并未突破原有潜力
过去人们认为,强化学习(RLVR)能让大模型(如GPT、DeepSeek-R1)在数学、编程等复杂任务中“自我进化”,解锁基础模型没有的能力。:RLVR只是让模型更擅长“快速找到已知解法”,但牺牲了探索新方法的能力,像培训班教出的“应试机器”。:在奥数题AIME24中,基础模型通过“穷举”找到了RLVR模型从未触达的正确解法。:小样本测试(如只考1次)时,RLVR模型得分更高(比如数学题正确率提升30%)。:当k=1时,RLVR模型胜出;:修剪枝叶,只保留“得分高”的路径,效率提升但探索受限。
2025-04-21 20:46:47
375
原创 刘鹏飞团队发布AI觉醒第二幕:认知革命已悄然降临
通过「Test Time Scaling」技术,AI在回答问题时不再是直接「翻答案」,而是像人类一样展开多步骤推理,甚至能连接看似无关的知识点。举个🌰:早期AI知道「万有引力」和「自由落体」,但无法将两者联系起来。通过测试时扩展,AI现在能像物理学家一样建立完整逻辑链,回答「为什么苹果会落地」时,会先推导引力公式,再结合地球质量计算加速度。最令人期待的是「科研加速」——AI正在生物制药、材料科学等领域辅助人类突破认知边界,像「超级科研助手」般同时追踪千条研究线索。AI的「第二幕」来了!
2025-04-21 20:46:47
328
转载 264页综述!MetaGPT、Mila、斯坦福、耶鲁、谷歌等绘制 Agent 新蓝图 - 最新版
然而,目前的大部分 Agent 应用仍是 LLM 能力的简单“封装”或延伸,距离真正通用的智能实体尚有距离——在面对复杂的真实世界时,Agent 往往会暴露出推理规划、长期记忆、世界模型、自主进化以及安全对齐等核心能力不足的问题。为应对这些挑战,需要研究部署多层次安全措施,如提高抵抗攻击能力的鲁棒性训练、检测阻止有害内容的过滤与监控机制、证明行为符合安全规范的形式化验证、帮助理解决策原因的可解释性与透明度设计,以及限制权限与影响的沙箱与隔离技术。其中,提示词,工作流,智能体组件是可以被直接优化的三个层次。
2025-04-21 20:46:47
141
转载 一张图片知道你在哪?o3-like 7B模型超越一流开闭源模型!
目前,该模型超过了一众开闭源一流模型,包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115、GPT4o-240806)和具备推理能力的(QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21)。这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定,非常适合实现o3-like的视觉线索跟踪推理。
2025-04-20 19:59:26
39
原创 北大+复旦发布最新最全面的Reward Model综述!
论文提到,大模型(如ChatGPT)虽然强大,但可能输出有害或错误内容。奖励模型的作用就是充当「人类偏好代理人」,用数据训练出一个打分系统,指导向人类期望的方向进化。比如在聊天场景中,RM会对比两个回答,选择更符合「3H原则」(诚实、无害、有帮助)的一个,帮助模型改进。就是AI世界的「零食发放器」,通过打分告诉模型什么行为是好的(比如诚实、无害、有帮助)。:数学题用规则打分(2+2=4),创意任务用模型打分(哪个故事更有趣)。论文认为,未来的RM会是「规则明确性」和「模型灵活性」的结合体。
2025-04-20 19:59:26
403
原创 不一样的推测解码!大LLM带小LLM,出奇的好,还有意外收获
小模型(如1.5B参数)虽然轻量、省电,但遇到复杂数学题或逻辑推理时容易“卡壳”——要么答案错误,要么啰嗦半天还绕不出去。这项技术让“小模型+大模型”组合成为可能:日常任务用小模型省成本,关键时刻调用大模型保质量。显示,超过80%的反思词汇紧跟在“\n\n”之后,说明这是模型“自我怀疑”的信号点。显示,大模型介入后,小模型的“废话量”明显减少,尤其错误答案的冗长度大幅降低。显示,小模型在数学题上的准确率仅为83.2%,而输出长度却是大模型的近两倍!只加速生成(如小模型写草稿,大模型改错字),而。
2025-04-20 19:59:26
849
转载 阿里通义实验室招聘2026届暑期实习生/日常实习生/2025届校招/社招
阿里巴巴通义实验室招聘 2026 届暑期实习生 / 日常实习生 / 2025 届校招 / 社招,我们以实现全球领先的大语言模型为目标。推理能力自适应提升技术,开发能够根据具体任务需求动态调整推理策略的自适应学习机制,使模型在不同场景下都能达到较高的推理效率和准确率。2026 届暑期 / 日常实习:暑期实习面向 26 届校招生,日常实习不限年级,两者本硕博学历皆可。邮件标题和简历请命名为: [暑期实习/日常实习/校招/社招]_[姓名]_通义实验室应聘。2025 届校招:面向 2025 届校招生,本硕博皆可。
2025-04-19 10:59:19
69
转载 ACM MM 2025 Grand Challenge | 多模态对话方面级情感分析挑战赛
MCABSA 挑战聚焦于更加复杂、动态的会话情境,要求参赛模型能够从文本、图像、语音等多模态输入中,全面感知并解析对话中的情感表达,支持情感元素的结构化抽取与动态变化建模。参赛者需开发系统从多轮多模态对话中抽取完整的情感六元组结构:情感表达者(holder)、对象(target)、方面(aspect)、观点(opinion)、情感极性(sentiment) 以及情感依据(rationale),全面评估模型对情感构成要素的理解能力。Mong-Li Lee, 新加坡国立大学。会议(eg.ACL)
2025-04-19 10:59:19
74
转载 北航等机构发布最新综述:大语言模型集成(LLM Ensemble)
现有的LLM Ensemble方法可以根据"LLM推理"和"集成"的先后顺序而分为三大范式:1) 推理前集成方法:在LLM执行推理前,利用给定的用户查询信息并结合各个LLM的不同特性,选择出最合适的模型以进行推理(此方法在本质上类似于集成学习中的硬投票策略);的角度来看,"(b)推理时集成方法"和"(c1)非级联式推理后集成方法"因不受推理成本限制,通常能够采用更加灵活的集成策略(即可以不依赖于基于挑选式的集成策略),并引入更细粒度的融合方式,最终具有更强的性能提升潜力。
2025-04-19 10:59:19
22
转载 ICLR 2025 | LLaVA-MoD:MoE蒸馏训练轻量化多模态大模型
本文提出了轻量化多模态大模型LLaVA-MoD,通过集成稀疏专家混合(MoE)架构来优化小模型的网络结构,并设计了Dense-to-Sparse蒸馏框架,结合模仿蒸馏和偏好蒸馏的两阶段策略,实现全面的知识迁移。在训练和推理阶段,专家模块能够以动态和稀疏的方式被激活,从而在增加模型容量的同时实现高效的训练和推理过程。由于教师MLLM的知识丰富且复杂,学生MLLM难以一步掌握,因此我们将知识分解为通用知识和专业知识,分别进行密集到密集蒸馏和密集到稀疏蒸馏,以将这两个方面的知识传递给学生MLLM。
2025-04-19 10:59:19
63
转载 浙大联合小红书发布大模型翻译最新研究成果:MT-R1-Zero,强化学习驱动机器翻译新范式!
针对这些难题,我们提出了MT-R1-Zero,首次将R1-Zero范式成功扩展到机器翻译领域的实现。格式错误将受到固定惩罚,激励模型优先学习正确格式。MT-R1-Zero证明了,即使在评估复杂、输出灵活的机器翻译任务上,纯粹的、基于度量的强化学习也是一条很有潜力的技术路径,希望这项工作能启发更多将RL应用于复杂自然语言生成任务的研究。在OOD(分布外)测试中,仅在英汉数据上训练的MT-R1-Zero-7B模型,在日英、德英、德汉等任务上表现出优异的零样本泛化能力,XCOMET分数显著优于同尺寸基线模型。
2025-04-18 08:05:18
39
转载 OlymMATH: 奥林匹克级双语数学基准,R1 正确率仅为 21.2%
在 MATH-500 上,DeepSeek-R1 和 Qwen2.5-32B-R1D 的准确率非常接近(97.3% vs 94.3%),但在 OlymMATH-EN-HARD 上,两者的准确率分别下降至 21.2% 和 13.6%,表明 OlymMATH 在区分不同模型的推理能力方面更具优势。同时我们进行了对 DeepSeek-R1 的思维链长度的分析。实验结果表明,从思维链长度的分布来看,OlymMATH-EASY 与 AIME 具有类似的难度,而 OlymMATH-HARD 则包含更多的挑战性题目。
2025-04-18 08:05:18
108
原创 模型眼中的世界是黑白的吗?GPT-4竟不如开源模型?颜色理解成模型新短板
人类通过颜色感知世界——比如红灯停绿灯行、通过皮肤颜色判断健康状态,甚至艺术品中的情感表达都依赖颜色。:在基础颜色识别任务上表现尚可(60%以上准确率),但在需要推理的任务(如计算颜色占比)中,准确率接近随机猜测(55%)。:在“颜色幻觉”任务中(比如背景色干扰物体颜色判断),AI表现反而在图片变黑白后提升!:当图片颜色被篡改时,多数模型表现大幅下降。:在色盲测试任务中,多数模型表现极差(准确率<30%),甚至不如人类色盲患者。:当前模型的视觉编码器规模普遍较小(3-4亿参数),需探索更大规模的视觉模型。
2025-04-17 13:52:12
724
转载 一张图片知道你在哪?7B模型超越一流开闭源模型!
目前,该模型超过了一众开闭源一流模型,包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115、GPT4o-240806)和具备推理能力的(QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21)。这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定。带有🔒标识的模型是专有闭源模型,而带有🧠标识的模型则具备增强的推理能力。
2025-04-17 13:52:12
36
原创 会做题还会检查!字节Seed提出Heimdall模型让解题正确率暴增30%
Heimdall(名字源自北欧神话中能洞察万物的守护神)是一个专为验证而生的模型。比如,解完题后,可能因为中间某步计算错误而给出错误答案,但它自己却无法发现。就像老师布置作业时,避免全是“1+1”或“哥德巴赫猜想”,否则学生学不到真正的判断能力。悲观验证算法通过平衡“解题偏好”和“验证信号”,显著优于其他方法。:用PPO算法(类似教模型“对答案给奖励,错答案扣分”);现在的大模型解题能力越来越强,甚至能搞定奥数题,但“:优先选择“最确定正确”的答案,避免被错误答案带偏。
2025-04-17 13:52:12
355
原创 多模态RAG综述!
论文提到,传统RAG依赖纯文本,容易“脑补”错误信息(学术叫“幻觉”),而MRAG通过真实的多模态数据“查资料”,回答更准确、更接地气!你问模型:“飞机行李怎么托运?:勉强算“伪多模态”,所有图片视频都要先转成文字描述,信息丢失严重,像是给蒙眼模型猜图片内容。:把PDF、网页等复杂文档拆解成文字、表格、图片,并打上标签,像图书馆管理员给书分类。:开始保留原始数据,支持跨模态搜索,比如用文字搜图片,但生成答案时还是不够灵活。:教科书变成“动态百科”,学生问“光合作用”,AI直接展示3D动画+实验视频。
2025-04-17 13:52:12
733
原创 腾讯发布DeepMath-103K,数学能力断崖式超过所有基线!
用语义模型和Llama-3大模型对比题目,像老师查重论文一样,把疑似“考试原题”全部删除。DeepMath-103K的诞生,让AI的数学推理能力迈出一大步。普通数学题库的题目难度像“爬小山”,而DeepMath-103K直接让LLM“登珠峰”。,通过语义对比和模型判断,删除了90%的相似题目,确保训练后的是“真学霸”,不是“背题机器”。剩下的题目让GPT-4扮演“奥数教练”,从知识深度、步骤复杂度等维度打分,只保留5级以上的题。当然,模型目前还不会自主提出“黎曼猜想”,但至少,它离“奥数金牌”越来越近了。
2025-04-17 13:52:12
861
原创 聊一聊现在的论文指导...
然后...找我的人更多了,但是真的带不过来了,于是我拉了几个其他学校的同样有教职的一线同学(没错,我也留校了,给的AP... 钱是真的少 你知道吗 哭辽),一起弄了一个小的辅导团队,也就是10个左右的老师,可以在国内外找一些学生,我们1v1自己带。我们从去年到现在,半年多了,带了好多学生了,目前EMNLP*2篇、ICLR*\2 篇,ACL投了一篇 Meta刚出分3.5 略微可惜,但最次也是Findings了吧(希望不要搞我),MM也投了3篇。,虽然说大家都想发论文,可是导师不行啊,有没有,放养啥的。
2025-04-16 17:32:52
228
转载 直播预约 | 264页最全综述:Agent最近进展与未来挑战
每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。以第一作者在Neurips、ACL、COLM、EMNLP等国际会议发表多篇论文,同时担任ICLR、Neurips、ACL等会议和期刊审稿人。从智能体的形式化讲起,详细构想跨环境的基础智能体的未来。我们将介绍智能体的认知结构,记忆,世界模型,奖励等核心组件;欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
2025-04-16 17:32:52
48
原创 推理成本降98%,准确率升13%!微软提出TwT:Thinking without Tokens
如今的大模型(如GPT-4o)越来越聪明,但“聪明”的背后是巨大的计算成本。比如,解答一道数学题时,模型会一步步写出推理过程,虽然答案更准,但生成的文字量暴涨,导致算力消耗和响应时间激增。:TwT请多位“老师模型”(如GPT-4、Mistral等)各自写答案,再用。:挑出老师们观点差异最大的答案,避免“标准答案”单一化(用余弦相似度对比)。:探索更多任务类型,研究隐式推理机制,让LLM真正“无师自通”。:传统蒸馏依赖单一老师的答案,容易片面;:直接去掉推理步骤,只学题目和答案,训练学生“秒答”能力。
2025-04-16 17:32:52
446
原创 已实锤:LLM确实不会真正的数学Reasoning
最近,一篇论文把ChatGPT、Gemini等顶尖LLM模型送进了「小学数学考场」,结果让人大跌眼镜:这些能在微积分考试拿高分的「LLM学霸」,面对最基础的加法题时,竟频频翻车!论文戳破了行业内的美好幻想:当前模型在复杂数学题的高分,可能只是「看答案猜套路」的假象。中所有模型的「数值题vs符号题」表现对比,像极了考试中的「开卷考vs闭卷考」——能抄笔记时都是学霸,真正理解时全是学渣。正如论文结尾的警告:在医疗、金融等关键领域,若盲目相信模型的「伪数学能力」,可能引发灾难性后果。
2025-04-16 17:32:52
866
转载 很好的一篇国外blog:实现GRPO
与其他强化学习方法(如PPO或RLHF)不同,GRPO不需要复杂的评判模型和大量计算资源,而是直接优化语言模型,并通过在生成的响应组内计算相对优势来实现目标。:为每个正确使用的XML标签提供部分奖励(每个标签0.125分),形成平滑的学习梯度。:不同于需要独立奖励模型的方法,GRPO直接使用显式奖励函数优化语言模型。:可以定义多个奖励函数,针对生成内容的不同方面(如正确性、格式、风格)。:奖励正确的XML格式(0.5分),教导模型使用正确的标签结构响应。奖励用于更新模型权重,鼓励模型生成更高奖励的输出。
2025-04-16 17:32:52
20
原创 假装Reasoning也能提准确率?LLM的极简推理法,Token减半,性能翻倍
在700 token的低配场景下,NoThinking以51.3% vs 28.9%的准确率碾压传统方法。如表所示,在定理证明任务中,该方法用1/4的计算量就达到相同效果。这种名为NoThinking的方法,在数学证明、编程等7大挑战性任务中,以2-5倍的token效率完胜传统方法。比如当你在做数学题时,老师突然说:"别写草稿了,直接写答案!就像手机从功能机到智能机的进化,AI推理正在卸下冗余的"思考包袱",开启轻量化新时代。论文通过"伪造思考框"的巧妙设计(如下图),让模型直接输出解题步骤。
2025-04-15 13:23:36
447
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人