AI斩获6枚金牌!华为Kaggle大师级智能体诞生,自主解决数据科学难题

继 OpenAI o1 成为首个达到 Kaggle 特级大师的人工智能(AI)模型后,另一个 Kaggle 大师级 AI 也诞生了。

根据 Kaggle 的晋级系统,由华为诺亚方舟实验室和伦敦大学学院团队联合推出的端到端自主数据科学智能体(agent)——Agent K v1.0,已经能够获得 6 枚金牌、3 枚银牌和 7 枚铜牌。

在这里插入图片描述

据介绍,Agent K v1.0 具备动态、多步骤处理复杂问题的能力,通过动态管理记忆并从经验中持续学习,能够完全自动化数据科学流程,并在不依赖微调的情况下,通过环境反馈不断优化决策,实现对各种数据科学任务的自动化、优化和泛化。

Agent K v1.0:一个自主数据科学智能体
当前,虽然 LLM 在自然语言交互方面展现优秀性能,但如何使 LLM 能够基于智能体处理具有序列或并行任务模块的系统性数据科学任务,构建能对各种数据科学任务进行自动化、优化和泛化的LLM 智能体,从而实现动态、多步骤的问题解决仍然是个挑战。

为解决这个问题,研究团队提出了一个灵活的基于经验学习推理的替代框架,借鉴了强化学习中的马尔可夫决策过程(MDP)概念,不过其独特性在于引入了结构化推理和长期记忆机制。这一创新举措避免了传统思维链或思维图方法对反向传播和微调的依赖,使得智能体能够在不更改 LLM 核心参数的情况下,实现动态学习与适应。

在这里插入图片描述

图|结构化推理的示意图与标准的思维链(CoT)方法形成对比。

在 Agent K v1.0 的框架体系中,智能体具备三种类型的动作,分别为长期记忆动作、内部动作以及外部动作。长期记忆动作用于对外部数据库的内容进行管理,将过往经验转化为指导当下决策的珍贵信息;内部动作则旨在更新工作记忆,塑造智能体的推理过程;外部动作直接与环境进行交互,执行任务并获取奖励。

**智能体通过与环境的互动,收集状态、工作记忆以及外部数据库的轨迹信息。**随后,利用 LLM 的内部策略来更新工作记忆和长期记忆。这些策略能够依据环境反馈,动态调整智能体的推理过程,使其可以根据具体情况做出最优决策,从而最大限度地实现回报。

总体而言,Agent K v1.0 的学习框架凭借结构化推理和长期记忆机制,达成了 LLM 在复杂数据科学任务中的高效学习与适应,为构建自动化、高效且可扩展的数据科学智能体开辟了崭新的途径。

此外,Agent K v1.0 具有全新的自动化数据科学任务处理方式。

在这里插入图片描述

图|Agent K v1.0 自动设计、编码和执行的整体数据科学流程。

首先,在数据科学任务设置的自动化阶段,Agent K v1.0 能够将数据科学任务精细分解为多个阶段,如数据抓取、数据摘要、模态检测、数据预处理以及特征工程等。

同时,利用单元测试对每个阶段的正确性进行严格验证。而当单元测试失败时,Agent K v1.0 会利用 LLM 生成解释错误原因的思考,并依据这些思考重新执行之前步骤,直至找到并修复错误。

在这里插入图片描述

图|自动设置阶段的主要步骤。

之后,在数据科学任务解决的优化阶段,Agent K v1.0 根据任务所涉及的模态类型,选择不同的工具和方法生成解决方案。对于表格数据任务,它使用 AutoML 工具自动生成预测;对于计算机视觉、自然语言处理和跨模态任务,则采用深度神经网络模型。此外,它还集成了多种工具,如 HEBO 进行超参数优化,以及利用 HuggingFace 的 Torchvision 和 Torchtext 库处理不同模态的数据。

不仅如此,Agent K v1.0 在多任务和持续学习方面也表现出色。它可以处理多个不同领域的数据科学任务,通过共享长期记忆实现知识迁移。同时,它会根据之前的经验选择下一个任务,构建难度逐渐增加的课程,以实现持续学习和知识积累。

在这里插入图片描述

图|Agent K v1.0 作为一个多模态、持续学习的数据科学智能体,能够在多轮操作中进行任务。

**为了客观评估 Agent K v1.0 的性能,研究团队构建了一个基于 Kaggle 竞赛的竞争性数据科学基准。**该基准涵盖了 Kaggle 平台上多达 65 个多样化的数据科学任务,涵盖表格数据、计算机视觉、自然语言处理以及跨模态任务等多个领域。

此外,该基准还评估了 Agent K v1.0 自动设置数据科学任务的能力,涵盖数据抓取、数据预处理、特征工程和模型训练等步骤。并通过单元测试来验证每个阶段的正确性,并评估智能体在不同模态和任务类型上的自动化成功率。

在这里插入图片描述

图|基准测试中 Kaggle 任务的分布饼图。

**在性能评估方面,该基准使用 Kaggle 平台的公开和私有分数来评估 Agent K v1.0 的性能。**根据 Kaggle 的排名系统,将智能体的表现与其他 Kaggle 用户进行比较,并计算其 Elo-MMR 积分,以评估其在 Kaggle 用户群体中的相对位置。

为确保公平比较,该基准考虑了竞赛规模,不同竞赛的参与者和提交数量可能不同,因此需使用 Elo-MMR 积分来进行比较;以及竞赛类型,社区竞赛、练习场竞赛和特色竞赛的难度和竞争程度不同,因此需使用 Kaggle 的排名系统来进行评估。

图|该表格描述了Kaggle的晋升系统,遵循Kaggle的指南和风格。

Kaggle 大师级水平 AI 智能体
研究团队还在 65 个 Kaggle 竞赛中对 Agent K v1.0 进行了测试。这些比赛可以由智能体自主设置,并且可以生成至少一个提交。与之前的工作不同,测试遵循了标准的 Kaggle 竞赛指南,其中智能体创建一个提交文件,并使用 Kaggle API 自动提交其解决方案。

智能体的解决方案在提交后被评估和排名在排行榜上,其性能将与参与者进行量化比较。为了确保公平性,这些量化指标基于可用的私人排行榜,并且仅使用公共排行榜结果来决定保留的提交,这反映了据科学家在 Kaggle 平台上的标准做法。

为了提高其性能,Agent K 使用基于内部训练数据拆分的验证损失。该损失和智能体内存中已有的代码帮助 LLM 反思并生成更成功的代码,最终提高其排名。

图|展示了 Agent Kv1.0 在各类比赛中的表现,涵盖了表格、计算机视觉、自然语言处理和多模态任务。y 轴为比赛的 ID;x 轴为根据 Kaggle 的私人排行榜衡量出的分位数表现,分位数越高,智能体表现越好。

**根据 Kaggle 的评估方法,Agent K v1.0 获得了相当于 6 枚金牌、3 枚银牌和 7 枚铜牌的成绩。**整体表现与 Kaggle 高级用户相当,甚至超过了部分顶级 Grandmaster 用户的水平。在 22 个任务中,Agent K v1.0 取得了超过 80% 的量化指标,在 62% 的竞赛中取得了超过 50% 的量化指标。

不足与展望
虽然 Agent K v1.0 在 Kaggle 数据科学竞赛中取得了令人瞩目的成绩,达到了 Kaggle 大师级水平,但其仍然存在一些不足之处。

第一,任务设置过程反馈单一。目前 Agent K v1.0 在设置任务时仅基于单元测试和元单元测试的反馈。未来将通过进一步引入反馈机制,识别哪些代码和数据预处理步骤能有效提升模型性能,从而优化任务设置的智能性。

第二,工具扩展与性能反馈机制依托工具简单。当前 Agent K 使用了一些现有工具(如 HEBO、RAMP 等)进行超参数优化和特征工程。未来计划引入更多工具,特别是能支持视频和音频处理的新模块,并研究更加有效的基于性能反馈的结构来优化 LLMs 的使用。

第三,目前的持续学习机制主要基于任务设置优化,后续计划将性能反馈融入任务选择的决策中,使 Agent K 能根据历史经验来评估任务难度及潜在表现,更好地利用知识积累来提升任务处理能力。

未来,研究团队计划进一步扩展现有的评估基准,不仅增加处理任务的数量,还将多模态挑战如音频和视频数据纳入其中,力求覆盖更广泛的真实场景,以提升系统的多样性和实用性。研究还将使 Agent K v1.0 更适应“可运行的notebook”竞赛要求,提升其在多种竞赛环境中的灵活性和适应性,并计划参与实时竞赛来更精准地验证系统的实际竞争力。

通过这些优化,Agent K v1.0 有望在多种任务和领域中进一步提升其自主数据科学能力,逐步向真正的 Kaggle 大师级目标迈进。

AI时代的职场新潮流

听说AI要来抢工作了?别担心,新岗位可比旧岗位有趣多了!想象一下,你从搬砖工升级成了机器人操作员,从算盘小能手变成了大数据分析师,这不是美滋滋吗?所以,社会生产效率提升了,我们也能更轻松地工作。不过,想成为AI界的佼佼者?那就得赶紧学起来,不然就会被同行们甩得连AI的尾巴都摸不着了!

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

### 解决PyCharm无法加载Conda虚拟环境的方法 #### 配置设置 为了使 PyCharm 能够成功识别并使用 Conda 创建的虚拟环境,需确保 Anaconda 的路径已正确添加至系统的环境变量中[^1]。这一步骤至关重要,因为只有当 Python 解释器及其关联工具被加入 PATH 后,IDE 才能顺利找到它们。 对于 Windows 用户而言,在安装 Anaconda 时,默认情况下会询问是否将它添加到系统路径里;如果当时选择了否,则现在应该手动完成此操作。具体做法是在“高级系统设置”的“环境变量”选项内编辑 `Path` 变量,追加 Anaconda 安装目录下的 Scripts 文件夹位置。 另外,建议每次新建项目前都通过命令行先激活目标 conda env: ```bash conda activate myenvname ``` 接着再启动 IDE 进入工作区,这样有助于减少兼容性方面的问题发生概率。 #### 常见错误及修复方法 ##### 错误一:未发现任何解释器 症状表现为打开 PyCharm 新建工程向导页面找不到由 Conda 构建出来的 interpreter 列表项。此时应前往 Preferences/Settings -> Project:...->Python Interpreter 下方点击齿轮图标选择 Add...按钮来指定自定义的位置。按照提示浏览定位到对应版本 python.exe 的绝对地址即可解决问题。 ##### 错误二:权限不足导致 DLL 加载失败 有时即使指定了正确的解释器路径,仍可能遇到由于缺乏适当的操作系统级许可而引发的功能缺失现象。特别是涉及到调用某些特定类型的动态链接库 (Dynamic Link Library, .dll) 时尤为明显。因此拥有管理员身份执行相关动作显得尤为重要——无论是从终端还是图形界面触发创建新 venv 流程均如此处理能够有效规避此类隐患。 ##### 错误三:网络连接异常引起依赖下载超时 部分开发者反馈过因网速慢或者其他因素造成 pip install 操作中途断开进而影响整个项目的初始化进度条卡住的情况。对此可尝试调整镜像源加速获取速度或是离线模式预先准备好所需资源包后再继续后续步骤。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值