小米 AI 实验室大模型团队2篇论文被 EMNLP 2024 录用

近日,EMNLP 2024(Empirical Methods in Natural Language Processing,简称 EMNLP)公布了论文录用结果。小米 AI 实验室大模型团队共有2篇OS Agent最新研究成果中选EMNLP 2024,其中主会长文1篇,findings长文1篇,涵盖了AI Agent和工具调用方向。

这是小米大模型部分研究成果的阶段性展示,同时也是践行小米科技战略中“深耕底层技术、长期持续投入”的又一例证。

自然语言处理中的经验方法会议(EMNLP) 是自然语言处理和人工智能领域的领先会议。与计算语言学协会(ACL)一起,它是自然语言处理研究的两个主要的高影响力会议之一。该会议侧重于基于经验方法和数据驱动的自然语言处理技术,每年举办一次,涵盖机器翻译、信息抽取、文本生成、情感分析等众多主题,在自然语言处理和人工智能领域具有重要影响力,将于11月12日至16日在美国迈阿密举行。

63148032ddae30b4d031b7bfa5298f25.png

01

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback》

论文作者:吴沁倬,刘伟,栾剑,王斌

录用类型:主会长文

论文链接:https://arxiv.org/pdf/2409.14826

近来,工具增强型LLM受到越来越多的关注。给定一个指令,工具增强型LLM可以与各种外部工具进行多轮交互并提供最终答案。然而,以前的LLM是在过于详细的指令上进行训练的,这些指令包括API名称或参数,而真实用户不会明确提到这些API细节。这导致训练出来的LLM与真实场景之间存在差距。此外,大多数工作都忽略了交互过程是否遵循指令。

针对这些问题,我们构建了一个名为MGToolBench的训练数据集,其中包含语句和类别级别的指令,以更好地反映真实场景。此外,我们提出了ToolPlanner,这是一个两阶段强化学习框架,利用路径规划和两种反馈机制来增强LLM的任务完成和指令遵循能力。

实验结果表明,与SOTA模型相比,ToolPlanner显著提高了匹配率、通过率和胜率,分别提高了26.8%、20.2%和5.6%。经过人工评估,多粒度指令更符合用户的使用习惯,数据和代码将在接受后发布。

bbbde17dbff20d80f19a30196d9b425e.png

MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding》

论文作者:吴沁倬*,徐伟恺*,刘伟,谭涛,刘剑锋,李昂,栾剑,王斌,商烁

录用类型:Findings长文

论文链接:https://arxiv.org/pdf/2409.14818

最近,基于 VLM 的移动 AI agent越来越受到关注。这些工作通常以 VLM 为基础,使用基于指令的移动数据集对其进行微调。然而,这些 VLM 通常是在通用领域数据上进行预训练的,这通常会导致缺乏特定于移动领域的基本功能。因此,它们可能难以识别特定的 UI 元素并理解 UI 内的细粒度信息。

此外,当前的微调任务侧重于与给定指令最相关的元素进行交互。这些经过微调的 VLM 可能仍然会忽略 UI 页面之间的关系,忽略元素在页面转换中的作用,并且缺乏 UI 之间的理解。为了解决问题,我们提出了一种名为 MobileVLM 的 VLM,它包括两个额外的预训练阶段,以增强 UI 内和 UI 之间的理解。我们定义了四个基于 UI 的预训练任务,使模型能够更好地感知细粒度元素并捕获页面转换操作。

为了解决移动端预训练数据不足的问题,我们从零开始构建了一个大型中国移动端数据集 Mobile3M,其中包含 300 万个 UI 页面和真实世界的转换动作,形成有向图结构。

实验结果表明,MobileVLM 在我们的测试集和公开的移动端基准测试中均表现出色,优于现有的 VLM。

918c50a26c6ba0981d76904e399077f9.png

02

AI Agent 介绍

AI Agent是基于大语言模型构建的智能体,它们能够执行复杂的任务,并且具备与环境交互、主动决策和执行任务的能力。一个基于大语言模型的AIagent包含四大核心功能:规划、工具使用、执行和记忆。

其中工具能力能够让大语言模型调用大量已知接口或者模型,集成外部的工具和服务,极大扩展了大语言模型的能力边界,提高其在具体场景下的性能。大语言模型的工具调用能力能够广泛应用到小米的产品中。

以HyperOS为例,大模型通过调用系统底层和IoT接口,能够让用户仅仅通过简单的自然语言命令,实现对于系统的操作和智能家居的控制。ToolPlanner是小米大模型团队在这一方向的一次探索,希望能让模型更好的支持真实世界中的用户指令,能够遵循指令来调用工具和完成任务。

AI agent需要感知环境才能做出决策并执行适当的行动。业界常见的环境包括文本场景、虚拟沙盘和真实物理环境等。而对小米来说,手机场景也是一个与自身密切相关的环境。手机环境具有可视化、功能丰富、实时反馈等特点。手机中的大量APP涵盖了日常生活的方法面面,也便于模拟和实现各种任务,构建和部署各种场景。此外,手机环境还具有可视化和交互性强的特点,在AI agent和环境交互时,能够提供真实且实时的环境反馈。

为了利用手机环境,我们需要大规模的手机UI数据,以及更适应手机环境的图像大模型。MobileVLM是小米大模型团队在这一方向的一次探索,一方面构建了第一个大规模中文APP数据集,专注于第三方中文APP;另一方面促使VLM更好的捕获UI页面内和不同UI页面间的特征,适应手机UI环境。

b05bf9f988394a830acccb758f662a8c.gif

33ca3094402040558b7ff5fb83d8756f.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值