LLM合集：微软发布Flow-DPO，通过在线多Agent学习提升LLM的数学推理能力

最新推荐文章于 2025-04-29 17:57:56 发布

程序员笑武

最新推荐文章于 2025-04-29 17:57:56 发布

阅读量829

点赞数 16

文章标签：学习 sql 人工智能 python 1024程序员节神经网络

本文链接：https://blog.csdn.net/m0_59164304/article/details/143415853

版权

1. Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

数学推理是大语言模型（LLMs）的一项关键能力，然而生成详细和准确的推理过程仍然是一个显著的挑战。本文提出了一种使用在线学习流（Online Learning Flows）生成LLM微调高质量推理过程的新方法。我们的方法采用一个增量输出生成流，其中组件语言模型通过迭代通信协作构建解决方案。我们使用展开的在线直接偏好优化（DPO）学习训练该流，为每个样本生成DPO对，并即时更新模型。我们对比了由我们方法生成的推理过程质量与通过直接模型推理生成的推理过程质量，证明了我们方法的有效性，从而在提高LLM在数学推理任务中的性能方面表现出色。

论文: https://arxiv.org/pdf/2410.22304

2. CLEAR: Character Unlearning in Textual and Visual Modalities

机器遗忘（MU）对于增强深度学习模型中的隐私和安全性至关重要，特别是在多模态语言模型（MLLMs）中，通过移除特定的私人或危险信息。虽然MU在文本和视觉模态方面取得了显著进展，但多模态遗忘（MMU）仍然严重未被探索，部分原因是缺乏合适的开源基准。为了解决这个问题，我们引入了CLEAR，用于评估MMU方法。CLEAR包含200个虚构个体和3,700张与相应问题-答案对相连的图片，使跨模态评估成为可能。我们评估了10种机器遗忘方法，将它们适应为MMU，并强调了多模态遗忘所特有的新挑战。我们还证明，对LoRA权重进行简单的ell_1正则化可以显著减轻灾难性遗忘，从而保持模型在保留数据上的性能。数据集可在https://huggingface.co/datasets/therem/CLEAR 获取。

论文: https://arxiv.org/pdf/2410.18057

3. AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

数据科学任务涉及表格数据时会面临复杂的挑战，需要采用高明的问题解决策略。我们提出了AutoKaggle，这是一个强大且用户导向的框架，通过协作多Agent系统帮助数据科学家完成日常数据处理任务。AutoKaggle 实现了一个迭代开发过程，结合代码执行、调试和全面的单元测试，以确保代码的正确性和逻辑一致性。该框架提供了高度可定制的工作流程，允许用户在每个阶段进行干预，从而将自动化智能与专业知识相结合。我们的数据科学工具包，包括经过验证的数据清洗、特征工程和建模功能，构成了这一解决方案的基础，通过简化常见任务来提高效率。评估结果表明，AutoKaggle 在典型数据科学管道中的验证提交率为0.85，综合得分为0.82，充分证明了其在处理复杂数据科学任务方面的有效性与实用性。

论文: https://arxiv.org/pdf/2410.20424

4. SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization

社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。虽然当前方法采用端到端训练专用网络的方式，利用标记图像数据，但在泛化能力和可解释性方面存在局限性。为解决这些问题，我们首先提出了一种简单而精巧的框架，名为SocialGPT，该框架结合了视觉基础模型（VFMs）的感知能力与大型语言模型（LLMs）的推理能力，为社会关系识别提供了一个强大基线。具体而言，我们指导VFMs将图像内容转化为文本形式的社会故事，然后利用LLMs进行文本推理。SocialGPT引入了系统设计原则，分别适应VFMs和LLMs，并弥合它们之间的差距。无需额外训练，它在两个数据库上实现了竞争性的零样本结果，同时提供可解释的答案，因为LLMs可以生成语言解释来说明决策。在推理阶段为LLMs手动设计提示的过程繁琐，需要一种自动提示优化方法。由于我们本质上将视觉分类任务转换为LLMs的生成任务，自动提示优化遇到了独特的长提示优化问题。为解决这一问题，我们进一步提出了贪婪段落提示优化（GSPO），通过在段级利用梯度信息进行贪婪搜索。实验结果表明，GSPO显著提高了性能，我们的方法也能够适应不同的图像风格。代码可在https://github.com/Mengzibin/SocialGPT获取。

论文: https://arxiv.org/pdf/2410.21411

5. OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

大语言和多模态模型的迅速发展激发了对使用如GPT-4o等专有模型来开发能够处理真实世界场景（如网页导航）的自主Agent的兴趣。尽管最近的开源努力试图赋予Agent探索环境和持续改进的能力，但他们仍在构建仅限文本的Agent，这些Agent位于定义清晰的奖励信号的合成环境中。这样的Agent难以在需要多模态感知能力且缺乏真实信号的现实环境中泛化，因此难以适应。在本文中，我们介绍了一个开源框架，旨在促进开发能够自主进行真实世界探索并不断提高自身的多模态网页Agent，以应对各种挑战。首先，我们使用模仿学习训练基础模型，以获得基本能力。然后，让Agent探索开放网络，并收集其轨迹的反馈。之后，它通过学习另一通用模型判断为表现良好的轨迹来进一步改进其策略。这个探索-反馈-优化循环可以进行多次迭代。实验结果表明，我们的网页Agent在每次迭代后都能成功自我改进，显示出强大的性能。

论文: https://arxiv.org/pdf/2410.19609

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述