1. Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
数学推理是大语言模型(LLMs)的一项关键能力,然而生成详细和准确的推理过程仍然是一个显著的挑战。本文提出了一种使用在线学习流(Online Learning Flows)生成LLM微调高质量推理过程的新方法。我们的方法采用一个增量输出生成流,其中组件语言模型通过迭代通信协作构建解决方案。我们使用展开的在线直接偏好优化(DPO)学习训练该流,为每个样本生成DPO对,并即时更新模型。我们对比了由我们方法生成的推理过程质量与通过直接模型推理生成的推理过程质量,证明了我们方法的有效性,从而在提高LLM在数学推理任务中的性能方面表现出色。
论文: https://arxiv.org/pdf/2410.22304
2. CLEAR: Character Unlearning in Textual and Visual Modalities
机器遗忘(MU)对于增强深度学习模型中的隐私和安全性至关重要,特别是在多模态语言模型(MLLMs)中,通过移除特定的私人或危险信息。虽然MU在文本和视觉模态方面取得了显著进展,但多模态遗忘(MMU)仍然严重未被探索,部分原因是缺乏合适的开源基准。为了解决这个问题,我们引入了CLEAR,用于评估MMU方法。CLEAR包含200个虚构个体和3,700张与相应问题-答案对相连的图片,使跨模态评估成为可能。我们评估了10种机器遗忘方法,将它们适应为MMU,并强调了多模态遗忘所特有的新挑战。我们还证明,对LoRA权重进行简单的ell_1正则化可以显著减轻灾难性遗忘,从而保持模型在保留数据上的性能。数据集可在https://huggingface.co/datasets/therem/CLEAR 获取。
论文: https://arxiv.org/pdf/2410.18057
3. AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions
数据科学任务涉及表格数据时会面临复杂的挑战,需要采用高明的问题解决策略。我们提出了AutoKaggle,这是一个强大且用户导向的框架,通过协作多Agent系统帮助数据科学家完成日常数据处理任务。AutoKaggle 实现了一个迭代开发过程,结合代码执行、调试和全面的单元测试,以确保代码的正确性和逻辑一致性。该框架提供了高度可定制的工作流程,允许用户在每个阶段进行干预,从而将自动化智能与专业知识相结合。我们的数据科学工具包,包括经过验证的数据清洗、特征工程和建模功能,构成了这一解决方案的基础,通过简化常见任务来提高效率。评估结果表明,AutoKaggle 在典型数据科学管道中的验证提交率为0.85,综合得分为0.82,充分证明了其在处理复杂数据科学任务方面的有效性与实用性。
论文: https://arxiv.org/pdf/2410.20424
4. SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。虽然当前方法采用端到端训练专用网络的方式,利用标记图像数据,但在泛化能力和可解释性方面存在局限性。为解决这些问题,我们首先提出了一种简单而精巧的框架,名为SocialGPT,该框架结合了视觉基础模型(VFMs)的感知能力与大型语言模型(LLMs)的推理能力,为社会关系识别提供了一个强大基线。具体而言,我们指导VFMs将图像内容转化为文本形式的社会故事,然后利用LLMs进行文本推理。SocialGPT引入了系统设计原则,分别适应VFMs和LLMs,并弥合它们之间的差距。无需额外训练,它在两个数据库上实现了竞争性的零样本结果,同时提供可解释的答案,因为LLMs可以生成语言解释来说明决策。在推理阶段为LLMs手动设计提示的过程繁琐,需要一种自动提示优化方法。由于我们本质上将视觉分类任务转换为LLMs的生成任务,自动提示优化遇到了独特的长提示优化问题。为解决这一问题,我们进一步提出了贪婪段落提示优化(GSPO),通过在段级利用梯度信息进行贪婪搜索。实验结果表明,GSPO显著提高了性能,我们的方法也能够适应不同的图像风格。代码可在https://github.com/Mengzibin/SocialGPT获取。
论文: https://arxiv.org/pdf/2410.21411
5. OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization
大语言和多模态模型的迅速发展激发了对使用如GPT-4o等专有模型来开发能够处理真实世界场景(如网页导航)的自主Agent的兴趣。尽管最近的开源努力试图赋予Agent探索环境和持续改进的能力,但他们仍在构建仅限文本的Agent,这些Agent位于定义清晰的奖励信号的合成环境中。这样的Agent难以在需要多模态感知能力且缺乏真实信号的现实环境中泛化,因此难以适应。在本文中,我们介绍了一个开源框架,旨在促进开发能够自主进行真实世界探索并不断提高自身的多模态网页Agent,以应对各种挑战。首先,我们使用模仿学习训练基础模型,以获得基本能力。然后,让Agent探索开放网络,并收集其轨迹的反馈。之后,它通过学习另一通用模型判断为表现良好的轨迹来进一步改进其策略。这个探索-反馈-优化循环可以进行多次迭代。实验结果表明,我们的网页Agent在每次迭代后都能成功自我改进,显示出强大的性能。
论文: https://arxiv.org/pdf/2410.19609
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。