【论文日报】LLM合集：微软推出LE-MCTS，蒙特卡洛树搜索助力多模型协同，推理性能跃升新高度_ensembling large language models with process rewa-CSDN博客

本文链接：https://blog.csdn.net/m0_59235945/article/details/144834575

1.Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

尽管大语言模型近期取得了显著进展，但开源模型在复杂推理任务中仍然难以保持一致的卓越表现。现有的集成方法，无论是在Token级还是输出级，都未能有效应对这些挑战。为此，我们提出了一种名为语言模型蒙特卡洛树搜索（LE-MCTS）的创新框架。🎉【文末福利送书】🎉

LE-MCTS将多语言模型的逐步推理过程建模为马尔可夫决策过程。在这一框架中，状态代表中间推理路径，而动作则是从预定义的模型池中选择一个语言模型，并生成下一个推理步骤。在基于过程的奖励模型指导下，LE-MCTS对不同语言模型生成的推理步骤进行树搜索，最终识别出最准确的推理链。

在五个数学推理基准测试中的实验结果表明，我们的方法显著优于单一语言模型解码算法和传统的语言模型集成方法。值得注意的是，LE-MCTS在MATH和MQA数据集上分别将性能提升了3.6%和4.3%，充分展示了其在解决复杂推理问题方面的卓越效能。

论文: https://arxiv.org/pdf/2412.15797

2. LearnLM: Improving Gemini for Learning

当今的生成式人工智能系统倾向于默认呈现信息，而非像人类导师那样服务于学习。为了应对这些系统在教育领域的广泛潜在用例，我们将注入教学行为的挑战重新定义为"教学指令跟随"，其中训练和评估示例包括描述后续模型交互中存在或期望的具体教学属性的系统级指令。

这种框架避免了将模型局限于任何特定的教学定义，而是允许教师或开发者指定所需的模型行为。同时，它为改进Gemini模型的学习能力开辟了道路 - 通过在后训练混合中添加教学数据，并与其rapidly扩展的能力集并行。这两点都代表了与最初技术报告相比的重要变革。

我们展示了如何通过教学指令跟随训练，开发出一个LearnLM模型（可在Google AI Studio上获取），该模型在多样化的学习场景中获得了专家评定者的显著偏好，平均偏好强度分别超过GPT-4o 31%、Claude 3.5 11%，以及基础的Gemini 1.5 Pro模型 13%。

论文: https://arxiv.org/pdf/2412.16429

3. SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval

RAG系统在利用海量语料生成信息丰富且上下文相关的响应方面发挥着关键作用，显著减少了大型语言模型中的幻觉现象。尽管取得了显著进展，这些系统在高效处理和检索大规模数据集的同时，仍然难以全面把握上下文。

本文提出了SKETCH，通过将语义文本检索与知识图谱相结合，增强RAG的检索过程，从而实现结构化和非结构化数据的深度融合，达到更全面的理解。SKETCH在检索性能上展现出显著改进，并且相较于传统方法，能够更好地保持上下文完整性。

在QuALITY、QASPER、NarrativeQA和意大利美食四个不同的数据集上进行评估，SKETCH在关键的RAGAS指标（包括答案相关性、忠实度、上下文精确度和上下文召回率）上持续超越基准方法。尤其在意大利美食数据集上，SKETCH取得了0.94的答案相关性和0.99的上下文精确度，在所有评估指标中均处于最高水平。这些结果凸显了SKETCH在提供更精确、更贴合上下文的响应方面的卓越能力，为未来的检索系统树立了新的标杆。

论文: https://arxiv.org/pdf/2412.15443

4. Outcome-Refining Process Supervision for Code Generation

大语言模型在代码生成方面展现出了卓越的能力，但在需要深度算法推理的复杂编程任务中仍然面临挑战。尽管通过学习的奖励模型进行过程监督在指导推理步骤方面显示出希望，但它需要昂贵的训练数据，且评估结果不可靠。

我们提出了一种名为utcome-Refining Process Supervision的新范式，将结果精炼本身视为需要监督的过程。我们的框架利用具体的执行信号来锚定推理步骤的监督，同时使用树状结构探索来同时维护多个解决方案轨迹。

实验表明，我们的方法使即使是较小的模型也能在竞争性编程任务中实现高成功准确率和性能指标，并且创建了比传统奖励模型更可靠的验证方法，且无需训练过程奖励模型（PRMs）。我们的方法在5个模型和3个数据集上取得了显著的改进：正确性平均提高26.9%，效率提高42.2%。

研究结果表明，为复杂编程任务提供具有具体验证信号的结构化推理空间至关重要。我们已在以下地址开源了所有代码和数据：https://github.com/zhuohaoyu/ORPS

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述