zenRRan-CSDN博客

转载上海AI Lab等推出硬核评测！SOTA大模型栽在解密推理上，结构化推理竟成致命伤

虽然有些研究触及了加密，但往往是教模型怎么用加密“越狱”👹，或者直接告诉模型“答案”（算法和密钥），这和现实世界中需要从零开始、仅凭少量示例去分析和推断未知加密规则的场景完全不是一回事儿！“前路虽远，行则将至！改进模型的思考流程，避免在看似简单的任务上“过度思考”或陷入不必要的递归修正，确保推理过程更加直接、高效和稳定，能够精确无误地执行推断出的解密步骤。让模型训练出纯粹的、抽象的符号和结构化推理能力，不再仅仅依赖表面文本的“猜意思”或进行“语义补全”，尤其在处理不具备强语义规律的加密数据时。

2025-05-23 17:51:53 10

原创学会“模糊思考”：推理速度提升22%，还少犯错

过去的 LLM 在推理时，每一步只能选一个确定的词（比如“苹果”或“香蕉”），就像考试时必须在ABCD中硬选一个答案。而人类的思维更灵活：我们会在脑中模糊地考虑多种可能性（比如同时想到“苹果、水果、红色”），最后再整理成语言。比如一直循环“红色→苹果→水果→红色……例如，在思考“水果”时，可能同时包含“苹果（30%）、香蕉（20%）、红色（15%）。这种方法让LLM在推理时保留所有可能性，像人类一样“边想边调整”，避免过早锁定错误答案；：当连续几步都高度自信（熵值低于阈值），就提前结束推理，直接输出答案。

2025-05-22 17:32:15 312

原创强化学习背后的隐藏代价：幻觉税

生成看似合理实则错误的答案。比如问它“删掉关键条件的数学题”，模型会强行编一个答案，而不是诚实地说“我不知道”。例如，原题问“钟表2:15的时针分针夹角”，SUM版会删掉“2:15”这个关键时间，让问题无法计算（见下表）。简单来说，RFT就像给模型“考试”，答对题目给奖励，答错扣分，逼它不断优化答案。：训练数据中缺少“无法回答的问题”，模型没见过这种情况，自然只会硬着头皮答。经过RFT训练的模型，面对无法回答的问题时，反而更爱“不懂装懂”：RFT的奖励规则只鼓励“答对题”，但没教模型“该不该答题”。

2025-05-22 17:32:15 213

转载 ICML2025分享会报名收集啦！

xchange Platform)成立于2023.11.26，由国内外高校一线青年教师和学生共同组织。每周进行学术分享，形式包括圆桌会议、主题分享、单篇论文深度分享等，内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办80余场分享、嘉宾120+人、全网拥有粉丝量12+万，b站和视频号一共大约30万播放量。，在此邀请大家来分享自己的工作，好的工作应该让更多的人看到！（文末了解NICE详情）报名后，我们会通过微信尽快联系你哒~

2025-05-22 17:32:15 8

原创在Think中边搜索边调整的搜索增强Reasoning方法

LLM虽然“知识渊博”，但本质是“死记硬背”——训练数据外的信息它无法掌握。AutoRefine让LLM的推理过程更像人类：先广泛收集信息，再去芜存菁，最后得出结论。比如问“《蒙娜丽莎》画家的父亲是谁”，AI可能搜到“达芬奇生平”，但忽略关键信息，导致答错。比如“A的父亲的生日”这类需要多次搜索的问题，AutoRefine准确率比基线高21%。类似侦探破案：先找线索A，从中提取关键人名，再根据人名找线索B，最终锁定真相。相比“直接用问题搜索”，AutoRefine的搜索成功率提升50%。

2025-05-21 16:51:34 308

转载 ACL 2025 | 清华&港中文提出 MorphMark：全新理论视角破解大模型水印效力与文本质量的两难困境

为了全面评估 MorphMark 的鲁棒性，本文实施了多种攻击手段模拟恶意篡改行为，具体包括：Word-S/ 攻击（随机替换词语为 WordNet 中的同义词，替换比例分别为 10%、30%、50%）；结果显示，MorphMark 对下游任务的影响与其他方法相近（这是因为本文在实验中通过控制文本质量相近，以便更准确地评估水印效力），进一步验证了其在水印效力与文本质量之间的平衡能力。该方法无需训练任何辅助模型，仅通过解析公式动态调整水印强度，在保证文本质量的同时显著提升了水印的检测能力和抗攻击能力。

2025-05-21 16:51:34 26

转载从零到有：打造迷你DeepSeek-R1最全教程

✨ --极简整合自匠数科技SFT数据+Qwen2.5蒸馏数据（用于快速训练Zero模型），每条数据字符最大长度为512（因此训练时设置max_seq_len=512）PS:因为我们训练参数是非常小的，本次训练更加关注于整个大模型训练过程，所以对性能咱们暂时不抱有太大预期，最后我们会测试模型的效果怎么样。我是minimind...），推荐用于lora训练（亦可用于全参SFT，勿被名字局限）至此我们大功告成，可以看到训练的模型可以回答问题，不过测试一些案例，发现比较简短，这个和模型参数还是有很大关系的。

2025-05-21 16:51:34 16

原创 ICLR 2025 Oral | LLM也有从众心理！

修改系统提示词，例如：“你是一个独立思考的专家，会严格验证信息”。当你和朋友玩“谁是卧底”时，明明知道正确答案，但看到所有人都选同一个错误选项，你会不会怀疑自己？例如在“信任陷阱”中，其他AI前几轮都答对，最后一轮突然集体答错，观察测试AI是否会因为信任而跟风。当讨论轮次从1次增加到5次，Llama3-70B的从众率从33.9%升至44.4%，说明。Qwen2模型从7B升级到72B参数时，独立决策率从19.6%飙升至57.6%，说明。就连最强的GPT-4o也未能幸免，在信任陷阱中的从众率达22.6%。

2025-05-20 22:19:01 354

转载 ICML 2025 | 无需训练，即时对齐大模型偏好

TPO 的一个核心优势，是它不仅可以在推理阶段实现即时对齐，更提供了灵活可调的“宽度 + 深度”推理拓展策略（test-time scaling），即通过控制每轮的候选生成数量（宽度）与迭代优化轮数（深度），显著提升输出质量与偏好一致性。尤其值得注意的是，一个原本未经过任何偏好训练的 Llama-3.1-70B-SFT 基础模型，在仅仅两步 TPO 优化后，其偏好得分在几乎所有评测基准上都超越了经过强化学习对齐的同款模型 Llama-3.1-70B-Instruct。展望未来，我们相信TPO只是一个开始。

2025-05-20 22:19:01 33

原创 ACL2025 | 抓出0.1%的捣乱分子压缩方法OTT：近乎无损超越KIVI，内存减6.4倍吞吐量提2.3倍

在数学推理（GSM8K）、代码生成（HumanEval）等任务中，OTT几乎无损，远超传统方法KIVI；像“捣乱分子”，它们的Keys在某些通道中数值极小，导致量化时误差被放大，最终影响模型输出质量。LLM 生成文本时，需要记住所有已生成内容的关键信息（类似“临时笔记”），这就是。异常令牌会拉大“最大值-最小值”，导致误差飙升，OTT通过排除它们缩小误差范围。生成内容过长时可能误差累积。：维护一个“异常池”，定期淘汰普通成员，保留最可疑的令牌；：在计算注意力时，对正常和异常令牌分开处理，减少误差传播。

2025-05-19 16:10:06 326

原创 Reasoning新突破：SoftCoT++如何让LLM‘多想几条路’？

LRM 的推理能力依赖“思维链”（Chain-of-Thought, CoT），即生成中间推理步骤。对比实验：仅加噪声（SoftCoT-P）效果有限，结合专用令牌和对比学习（SoftCoT++）显著提升。传统CoT与SoftCoT++的对比：前者在离散空间生成步骤，后者在连续空间生成“软思维”举个栗子：解同一道题时，模型可能先想“用方程”还是“画图”，不同起点会导向不同解法。（比如给不同的“思维起点”），让模型在连续空间里自然分化出多样路径。（简单说：让同一条路径的思维更集中，不同路径的思维更分散）

2025-05-19 16:10:06 595

转载多模态大模型集体翻车，GPT-4o仅50%安全通过率——SIUO 揭示跨模态安全盲区

对 15 个 LVLM（包括 GPT-4V 等先进模型）的评估凸显了解决 SIUO 类安全问题的巨大挑战，为多模态模型安全研究提供了系统性的分析工具和评测方法，也为后续提升模型跨模态对齐能力指明了方向。目前已有的多模态大模型安全评估数据集通常仅关注由单一模态（例如不安全的图像或文本）触发的安全问题，很少考虑跨模态。闭源模型通常比开源模型有着更好的安全对齐：在 SIUO 排行榜上，得分最高的三个模型 GPT-4V、Gemini-1.5 和 GPT-4o 均为闭源模型，并且比得分最高的开源模型高出 10 分。

2025-05-18 18:49:10 37

转载 FudanNLP邱锡鹏老师组-25普博/26直博/26普博/26保研招生

然而，当前的音频文本多模态大模型面临着对于现实世界中复杂情境的理解能力不足，语音生成拟人化程度低，可控性差，模态冲突和能力跨模态迁移效率低等问题，严重限制了音频文本多模态大模型在现实世界中的使用。本课题主要攻关音频文本多模态大模型预训练及后训练关键技术，包括音频离散化，多模态预训练，拟人化语音生成，语音文本强化学习，多模态智能体等，构建音频文本多模态基础大模型，提升模型在真实世界场景的理解和生成能力，创造具有情境智能能力的新物种。利用强化学习优化模型在交互任务中的表现，使其更符合人类偏好和任务需求。

2025-05-18 18:49:10 29

转载苏州大学OpenNLG小组近期录用15篇ACL、2篇ICML等论文！招生贴

为此，我们提出了一个开箱即用的评估工具集，覆盖11项任务（上下文长度从8K到48K），可全面评估LCMs在长上下文任务中的生成质量与忠实性，并配有自动化评估流程。尽管基于蒙特卡洛（Monte Carlo, MC）估计生成的合成数据是一种有前景的替代方案，但其存在较高的噪声比例，容易导致模型过拟合，从而限制了大规模训练的效果。为此，我们提出ScaleQuest，一种新颖、可扩展的数据合成方法，引入了两阶段的问题调优流程，包括问题微调（QFT）与问题偏好优化（QPO），有效激发模型的问题生成潜力。

2025-05-17 22:59:48 244

原创 Qwen突破：用「并行计算」代替「堆参数」，新方法内存降22倍、延迟降6倍

最近提出的「Test Time Scaling」虽能提升性能，但需要生成数百个中间步骤，反而更慢。举个通俗例子：就像让10个专家同时解同一道题，再根据他们的解题过程动态选最优解，而不是只问一个超级专家。或许未来AI进化的关键不再是「造更大的模型」，而是「更聪明地使用算力」。未来咱们的手机助手可能既是「生活管家」又是「数学老师」，却完全不卡！ParScale的突破思路：用「并行计算」代替「堆参数」：复制输入并添加不同「思考前缀」，同时跑P个计算流。动态调节并行数：聊天时开2个流，解数学题时开8个流。

2025-05-17 22:59:48 665

原创告别Reasoning模型的“灵光一现”，推理能力可控了

当前像GPT-4o、DeepSeek-R1等大模型虽然能生成复杂推理链，但它们的“高级操作”（比如自我纠正、反向验证）往往是。每个元能力单独训练专家模型，用强化学习（RL）奖励机制引导学习。合并后模型 = λ₁×演绎专家 + λ₂×归纳专家 + λ₃×溯因专家。（Deduction）：已知规则和假设，推导具体结果。：科学问答（GPQA）准确率从38.0%→38.6%：数学平均分从38.8%→43.0%，提升4.2%（λ是调整权重的系数，实验发现演绎能力更重要）：推理能力从“随机触发”变为“可控培养”

2025-05-16 12:37:30 417

原创完全从0开始，仅用8元+9h！即可训练出Tiny LLM全流程教程，包含Reasoning、MoE等

✨ --极简整合自匠数科技SFT数据+Qwen2.5蒸馏数据（用于快速训练Zero模型），每条数据字符最大长度为512（因此训练时设置max_seq_len=512）PS:因为我们训练参数是非常小的，本次训练更加关注于整个大模型训练过程，所以对性能咱们暂时不抱有太大预期，最后我们会测试模型的效果怎么样。我是minimind...），推荐用于lora训练（亦可用于全参SFT，勿被名字局限）至此我们大功告成，可以看到训练的模型可以回答问题，不过测试一些案例，发现比较简短，这个和模型参数还是有很大关系的。

2025-05-16 12:37:30 906

转载 14小时近500 Star！快速进阶LLM/AI的必读系列

来自github: https://github.com/InterviewReady/ai-engineering-resources。昵称-学校/公司-方向/会议(eg.ACL)

2025-05-15 12:52:52 36

原创清华刘知远团队：高质量LLM训练数据获取新方法！成本降90%，性能大提升

抛弃笨重的LLM质检员，改用轻巧的fastText工具（类似“智能筛子”），处理15万亿数据只需1000小时CPU——相当于用扫地机器人代替保洁大队！传统方法要验证数据质量，得从头训练一个大模型，相当于每批食材都要做满汉全席试吃，耗时又烧钱。”：先训练一个“半熟”的模型，再用新数据快速微调。现有方法依赖专家手动筛选“种子数据”，就像让米其林厨师凭感觉挑食材，不同人选的“好数据”可能天差地别。这篇论文就像一份《LLM营养学指南》，提出了全新的数据筛选方案，让模型吃得更精、长得更壮！昵称-学校/公司-方向/

2025-05-15 12:52:52 311

原创模型宣称的“百万字处理能力”是真本事，还是营销噱头？LongCodeBench揭露真相

近年来，大模型的处理能力突飞猛进，从最初只能读几千字，进化到号称能处理百万字上下文。在短文本（3.2万字）下debug成功率达29%，但文本拉长到25.6万字时，直接暴跌到3%！与模型表现呈正相关。未来，如何让模型像我们一样“细读代码库”，依然是关键挑战，长文本任重而道远。（如Qwen2.5）在长文本任务中几乎“全军覆没”，修复成功率接近0%。支持从3.2万字到100万字的六档测试，精准定位模型短板。：模型像“走神的学生”，面对海量信息时抓不住重点。的测评工具，揭开了长上下文模型的真实表现。

2025-05-15 12:52:52 280

原创推测解码的三条Scaling laws，让接受率和吞吐量翻倍

传统的逐词生成方式（Auto-regressive Decoding）就像“一个字一个字写作文”，而推测解码技术则像“先草拟多个可能的后续句子，再快速验证”，从而大幅提速。但如何设计高效的草稿模型（Draft Model），一直是学术界和工业界的难题。LLM虽然能力强大，但生成文本时速度慢、计算成本高，尤其需要“长思考链”的任务（如复杂推理、长文本生成）更是雪上加霜。团队也提醒：盲目扩大草稿模型可能增加算力负担，需在“速度”和“成本”间权衡。：在摘要（CNN/DM）和问答（NQ）任务中表现最佳。

2025-05-14 13:54:59 419

原创学会用工具看图：准确率碾压GPT-4.1，开源框架让模型拥有“视觉思维”

当前的视觉大模型（如GPT-4.1）虽然能识别图像中的物体，但在处理复杂图表时却经常“翻车”。传统方法靠“模仿人类操作”训练模型（监督学习），但遇到新问题容易“死记硬背”。通过不断试错，学会“用最少工具得最高分”。对比图中，V-ToolRL（橙色曲线）的准确率一路领先，证明强化学习能显著突破监督学习的性能天花板。：即使接入OCR（文字识别）等工具，调用策略也是固定的，无法根据任务动态调整。：先让模型学习人类标注的“标准操作流程”，比如“先OCR再画线”。：每个工具独立运行，避免“一个工具崩溃，全家罢工”。

2025-05-14 13:54:59 502

原创小米发布首个Reasoning模型MiMo：7B可超越o1-mini，从预训练到后训练挖掘推理潜力

近年来，GPT-4、Claude等大模型在数学推理、代码生成等复杂任务中表现惊艳，但这些模型动辄千亿参数，普通人根本玩不起。，团队用13万道数学题和编程题对模型进行「特训」，并通过强化学习（RL）让模型学会「自我反思」。：先学通用知识，再猛攻数学代码（占70%），最后加入LLM生成的「参考答案」。如果说传统大模型是「通才」，MiMo-7B就是专为解题而生的「偏科天才」。：模仿奥赛评分规则，难题部分答对也能得分，避免「一题不会全盘崩溃」。：用LLM当「质检员」，过滤低质量网页，保留数学公式和代码片段。

2025-05-14 13:54:59 365

原创字节Seed团队发布Seed1.5-VL，用仅20B活跃参数在60个主流测试中狂揽38项第一！

VLM通过整合视觉和文本模态，推动了多模态推理、图像编辑、GUI代理、自动驾驶和机器人等领域的发展。与现有模型比，Seed1.5-VL在多个内部基准测试中表现出色，特别是在OOD任务上。，Seed1.5-VL是一个强大的视觉-语言基础模型，通过创新的架构和训练策略，在多模态任务上取得了显著进展。视觉任务评估：在多模态推理、文档理解、视觉定位和计数等任务上，Seed1.5-VL取得了SOTA或接近SOTA的结果。视频任务评估：在短视频、长视频、流视频、视频推理和视频定位任务上，Seed1.5-VL表现出色。

2025-05-13 13:56:20 709

原创 Learning from peers！让LRM互相「传纸条」的新协作方式大幅提高准确率和效率

研究发现，当前主流大模型（如QwQ-32B）如果在推理开头犯一个小错误（比如前15%的内容错误），最终准确率会暴跌近20%。核心公式：`相似度 = 1 -（编辑距离 / 最大文本长度）` 用文字编辑距离量化思路差异，越不同的总结得分越低。上图显示，加入「同学互助」后，模型需要的「灵光一闪」时刻减少了16.4%，说明协作让思考更高效。这个70亿参数的「小个子」，在数学竞赛题（AIME 2024）上追平了140亿参数的模型。结果发现，模型很难从这个「错误开头」中恢复，就像人类被错误思路带偏一样。

2025-05-13 13:56:20 336

原创会解题不等于懂人心，腾讯混元提出Sentient Agent，提高高阶社交认知能力

传统评估方法（如Arena排行榜）只关注任务完成度，却无法判断模型是否真的让人感到被理解、被安慰。正如论文结尾所说：“我们需要的不仅是聪明的AI，更是懂人心的AI。GPT-4o-Latest用3300个token拿到最高分（79.9），而话痨型模型o3用了13300个token却只有62.7分。例如当用户倾诉分手痛苦时，若机械回复“一切都会好起来”，裁判的情绪值会骤降，并生成内心吐槽：“又在说套话，根本不懂我的委屈！：性格+背景+目标+隐藏动机（例如“只想吐槽”或“需要道德分析”）

2025-05-12 14:49:17 283

原创 AI如何看懂足球？上海交大团队打造Multi-Agent系统，全面解析“美丽足球”！

足球被称为“最复杂的团队运动”，但现有的研究却像“只会看画面的球迷”——要么只能识别动作（比如铲球、射门），要么回答不了需要背景知识的问题（比如“某球员上赛季进了多少球”）。更尴尬的是，现有模型像“单科偏科生”：有的擅长识别球衣号码，有的能生成解说，但无法协同作战。这就像让11个前锋踢比赛，结果一团糟。：包含1.3万道“足球考题”，覆盖13类任务（比如识别球衣颜色、判断犯规视角），题目类型包括文字、图片、视频。：收录9471名球员、266支球队的详细数据，相当于足球版的“维基百科+Excel表”。

2025-05-12 14:49:17 349

原创字节Seed新方法！开源8B代码模型：自己筛数据训练自己，同量级SoTA，还能超越百亿级对手

可以预见，这类轻量高效的代码模型将加速渗透开发工具链，成为程序员24小时在线的“超级助手”已经不远了~（既感到欣慰，又感到危险有木有。团队直接“让LLM自己当老师”，用模型筛选数据训练自己，打造出一系列8B参数的轻量级开源代码模型，性能甚至超越百亿级对手。这种“LLM教LLM”的模式，让数据筛选效率提升百倍，最终构建了6万亿token的高质量代码训练库，支持89种编程语言。，专攻多步骤复杂编码问题。：把代码随机拆成前缀、中缀、后缀，让模型学会“补全中间缺漏”，提升代码补全能力。

2025-05-11 12:53:40 447

原创无需训练！让VLM同时具备「视觉」与「推理」能力，数学题得分暴涨30%

当前的视觉语言模型（VLM）就像「视力超群但数学不及格的学生」——能看懂图片，却解不开复杂的数学题。：VLM早期层专注视觉感知（如识别图像中的数字），后期层才涉及推理，但后者能力较弱。：从擅长数学的纯文本模型（如Dart-Math）中提取「推理任务向量」；：多模态推理数据稀缺，而纯文本的数学训练数据更丰富；：推理能力「渗透」到所有层，但视觉层基本不变。：证明该方法专注增强「纯推理」而非视觉。「视觉」与「推理」为何难以兼得？「模型合并」：学会「嫁接技能」感知在「眼睛」，推理在「皮层」

2025-05-11 12:53:40 260

转载新国立(NUS)计算机系AI方向招生-全奖/带薪-博后博士访问学生intern RA等 – Dr. Yatao Bian

在NeurIPS、ICML、ICLR、 IJCAI、AISTATS、T-PAMI等机器学习顶会期刊发表多篇论文，担任ICLR, NeurIPS 领域主席及JMLR， T-PAMI， Nature Machine Intelligence期刊审稿人。卞亚涛博士（Yatao Bian, https://yataobian.com）将于2025年秋季全职加入新加坡国立大学计算机系（NUS, School of Computing），担任博导、独立PI、助理教授。有良好的英语读写和口头沟通能力。

2025-05-10 15:08:59 311

原创迈过它才是真正的AGI之路：NUS/NTU联合发布通用基准，700种任务、325k道题

论文开篇指出，当前的多模态大模型（MLLM）虽然能处理图文、视频等多种信息，但大多只是简单拼接不同模块，就像用胶水粘合的"缝合怪"，远未达到真正的智能协同。多数模型只擅长看图说话，遇到"听歌作画""看视频改剧本"就抓瞎。它覆盖图像、视频、音频、3D等多元场景，既有"看图说话"的基础题，也有"听声画图"的烧脑题。就像手机摄影从单摄发展到多摄联动，多模态大模型正在经历从"单科专家"到"全能通才"的进化。要准确评估"段位"，需要一套全新的考题——这就是包含。：从"拼装式"转向"熔炉式"设计，让不同模态深度交融。

2025-05-10 15:08:59 527

原创弹性Reasoning！通过控制预算和RL达到更短、更快、更强

举个例子：训练时故意只给模型一半的“想”时间，逼它学会抓重点。总预算=“想”+“写”的token数（比如总预算2000token，可拆成“想”1500+“写”500）；：1.5B参数的模型（E1-Math-1.5B）在AIME奥数题上准确率35%，比基线模型高8%；：14B模型（E1-Code-14B）在Codeforces竞赛中达到96%的排名，接近顶尖模型；：仅需200步训练（对比基线方法700步），就能让模型学会“见好就收”。如果“想”超时，直接插入终止符，强制进入“写”阶段，确保答案完整性。

2025-05-10 15:08:59 325

转载 SIGIR 2025｜打造虚拟情感陪聊机器人新思路：利用个性化实时检索，大幅提升agent主动对话能力

为了保持对话的质量并提供有效的陪伴，对话系统应主动引入新颖且有趣的话题，新话题的选择需结合用户的兴趣点，并对现有实时信息进行检索（例如搜索用户感兴趣的体育项目的最新动态），以确保话题内容既具个性化又富有趣味性，从而持续优化用户的对话体验，提高整体陪伴效果。实时检索有助于使后续生成的内容更加贴近现实生活，具备更强的丰富性和时效性，在获取相关检索结果后，系统基于重写后的查询，利用大语言模型对检索结果进行总结和摘要，从而剔除部分与用户意图无关的冗余信息，并对内容进行整合，为后续生成更自然、贴切的回答提供支持。

2025-05-09 14:01:07 176

原创哈工深发布多模态Reasoning大模型综述：感知、推理、思考和规划

就像人类遇到问题时会结合所见所闻，模型也需要跨模态推理能力，比如看到“乌云密布”联想到“带伞”，听到“玻璃碎裂”判断可能发生意外。：通过试错优化决策路径典型案例是OpenAI的GPT-4o，能处理长达8分钟的复杂任务（如图像编辑多轮调整）。显示，现有评测基准（如OmniBench）中，顶尖模型准确率不足20%，说明技术仍处早期阶段。论文预言，这类模型将彻底打破现有架构，成为真正的“数字大脑”。：回答问题时展示推理过程（如“先定位物体，再分析关系”）：在虚拟/现实环境中试错学习，如机器人自主规划抓取路径。

2025-05-09 14:01:07 873

原创清华提出ConCISE：简单有效，Reasoning过程砍掉一半，准确率不降！

如今的大模型（如DeepSeek-R1）在解数学题或逻辑推理时，明明答案对了，还要反复推演十几步，生成超长的思考链。现有方法要么“事后修剪”（可能破坏逻辑连贯性），要么靠随机采样选最短答案（效果不稳定），始终治标不治本。当然，研究还有改进空间，比如未压缩单一步骤内的冗余内容，但这一步已让模型推理效率迈入新阶段。，不仅能解数学题，连知识问答（GPQA）等陌生任务也表现稳定，彻底告别“过度思考”。模型像“纠结症患者”，明明算对了，却因自我怀疑重新检查。，比如：“之前的步骤没问题，继续！

2025-05-09 14:01:07 457

原创清华提出Absolute Zero：零数据训练Reasoning LLM！

用Python执行环境替代人类裁判，既能验证答案，又能生成多样化任务（例如：“已知代码和输出，反推输入”）。的目标是生成“难易适中”的题目：太简单（全对）或太难（全错）都得低分，只有50%正确率的题目才是好题。：AI同时扮演“出题老师”和“解题学生”，生成的题目通过代码执行自动验证对错，形成进化循环。：采用任务相对REINFORCE++，针对不同任务类型单独计算奖励基线，避免“偏科”。，甚至出现“灵光一现”的复杂推理，但也可能产生危险思路（如“智取人类”的言论）。总之，这个是很好的论文，值得大家去读读~

2025-05-08 19:08:03 385

原创 ICML2025 | 通过推测搜索加速LLM Reasoning能力，做到又快又好

但问题在于：生成每个推理步骤（thought）都需要大模型反复计算，导致延迟飙升。有点像小模型是「实习生」，快速完成简单工作；大模型是「专家」，只处理疑难杂症。未来，或许会出现「模型协作生态」——不同规模模型组成「推理战队」，像足球队般分工协作。这就像考试时，老师会根据往届学生成绩动态调整及格线，既保证质量又不浪费资源。LLM 的「慢思考」模式像人类解题——通过多步骤推理（树搜索）寻找最优解。链接：https://arxiv.org/pdf/2505.02865。：让大模型带着小模型「打配合」。

2025-05-08 19:08:03 426

原创新SoTA方法RM-R1：让reward model对评分说出原因！超越GPT4o

过去，模型的“评分”就像老师只给分数不写评语——比如你问“哪个回答更好”，它只会输出一个数字或简单结论，但说不出理由。而人类评分时会先列标准（比如“逻辑性”“安全性”），再逐条分析。用高级模型（如Claude、GPT-4）生成的“标准答案评语”教小模型写分析；对伦理问题，模型会生成“安全准则”，按规则打分。通过强化学习，让模型根据实际表现优化评分逻辑。：数学题准确率91.8%，代码题74.1%；对数学题，模型会自己先解题，再对比答案；实验：碾压GPT-4，小模型逆袭大模型。：接近GPT-4，但模型小得多。

2025-05-07 15:18:52 332

原创低延迟、高吞吐，LLM优化与高效推理引擎综述

LLM每次回答都要进行复杂的计算，尤其是需要多次调用模型的场景（比如连续推理、多轮对话），成本高得离谱。（Chain-of-Thought）：模型需要反复自我验证才能给出答案。链接：https://arxiv.org/pdf/2505.01658。：抛弃传统Transformer，用状态空间模型实现线性复杂度。：混合Mamba+Transformer，兼顾效率和性能。（如AutoGPT）：自动规划任务流程时频繁调用模型。：用户希望响应快（低延迟），企业想省钱（高吞吐）。

2025-05-07 15:18:52 468

转载 ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

近日，一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象：在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值，而在值 (V) 表示中却没有这种模式。然而，不同的量化方法对模型性能的影响各异。结果表明，这些极大值主要影响模型处理当前上下文窗口中的信息的能力，而非影响从参数中提取的知识。

2025-05-07 15:18:52 43

空空如也

空空如也