小米 AI 实验室大模型团队2篇论文被 EMNLP 2024 录用

最新推荐文章于 2025-02-15 11:54:54 发布

小米技术

最新推荐文章于 2025-02-15 11:54:54 发布

阅读量641

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxMDQxMDMyNg==&mid=2247515333&idx=1&sn=43054b279d043470b0dad2dcc8a2d899&chksm=f8e1b62397f26ea48b6cf4bb06d3e8d8d3d290aaa446d7e834c47fa8b90a4495d57942297546&scene=126&sessionid=0

版权

近日，EMNLP 2024（Empirical Methods in Natural Language Processing，简称 EMNLP）公布了论文录用结果。小米 AI 实验室大模型团队共有2篇OS Agent最新研究成果中选EMNLP 2024，其中主会长文1篇，findings长文1篇，涵盖了AI Agent和工具调用方向。

这是小米大模型部分研究成果的阶段性展示，同时也是践行小米科技战略中“深耕底层技术、长期持续投入”的又一例证。

自然语言处理中的经验方法会议(EMNLP) 是自然语言处理和人工智能领域的领先会议。与计算语言学协会（ACL）一起，它是自然语言处理研究的两个主要的高影响力会议之一。该会议侧重于基于经验方法和数据驱动的自然语言处理技术，每年举办一次，涵盖机器翻译、信息抽取、文本生成、情感分析等众多主题，在自然语言处理和人工智能领域具有重要影响力，将于11月12日至16日在美国迈阿密举行。

01

▍《ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback》

论文作者：吴沁倬，刘伟，栾剑，王斌

录用类型：主会长文

论文链接：https://arxiv.org/pdf/2409.14826

近来，工具增强型LLM受到越来越多的关注。给定一个指令，工具增强型LLM可以与各种外部工具进行多轮交互并提供最终答案。然而，以前的LLM是在过于详细的指令上进行训练的，这些指令包括API名称或参数，而真实用户不会明确提到这些API细节。这导致训练出来的LLM与真实场景之间存在差距。此外，大多数工作都忽略了交互过程是否遵循指令。

针对这些问题，我们构建了一个名为MGToolBench的训练数据集，其中包含语句和类别级别的指令，以更好地反映真实场景。此外，我们提出了ToolPlanner，这是一个两阶段强化学习框架，利用路径规划和两种反馈机制来增强LLM的任务完成和指令遵循能力。

实验结果表明，与SOTA模型相比，ToolPlanner显著提高了匹配率、通过率和胜率，分别提高了26.8%、20.2%和5.6%。经过人工评估，多粒度指令更符合用户的使用习惯，数据和代码将在接受后发布。

▍《MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding》

论文作者：吴沁倬*，徐伟恺*，刘伟，谭涛，刘剑锋，李昂，栾剑，王斌，商烁

录用类型：Findings长文

论文链接：https://arxiv.org/pdf/2409.14818

最近，基于 VLM 的移动 AI agent越来越受到关注。这些工作通常以 VLM 为基础，使用基于指令的移动数据集对其进行微调。然而，这些 VLM 通常是在通用领域数据上进行预训练的，这通常会导致缺乏特定于移动领域的基本功能。因此，它们可能难以识别特定的 UI 元素并理解 UI 内的细粒度信息。

此外，当前的微调任务侧重于与给定指令最相关的元素进行交互。这些经过微调的 VLM 可能仍然会忽略 UI 页面之间的关系，忽略元素在页面转换中的作用，并且缺乏 UI 之间的理解。为了解决问题，我们提出了一种名为 MobileVLM 的 VLM，它包括两个额外的预训练阶段，以增强 UI 内和 UI 之间的理解。我们定义了四个基于 UI 的预训练任务，使模型能够更好地感知细粒度元素并捕获页面转换操作。

为了解决移动端预训练数据不足的问题，我们从零开始构建了一个大型中国移动端数据集 Mobile3M，其中包含 300 万个 UI 页面和真实世界的转换动作，形成有向图结构。

实验结果表明，MobileVLM 在我们的测试集和公开的移动端基准测试中均表现出色，优于现有的 VLM。

02 AI Agent 介绍

AI Agent是基于大语言模型构建的智能体，它们能够执行复杂的任务，并且具备与环境交互、主动决策和执行任务的能力。一个基于大语言模型的AIagent包含四大核心功能：规划、工具使用、执行和记忆。

其中工具能力能够让大语言模型调用大量已知接口或者模型，集成外部的工具和服务，极大扩展了大语言模型的能力边界，提高其在具体场景下的性能。大语言模型的工具调用能力能够广泛应用到小米的产品中。

以HyperOS为例，大模型通过调用系统底层和IoT接口，能够让用户仅仅通过简单的自然语言命令，实现对于系统的操作和智能家居的控制。ToolPlanner是小米大模型团队在这一方向的一次探索，希望能让模型更好的支持真实世界中的用户指令，能够遵循指令来调用工具和完成任务。

AI agent需要感知环境才能做出决策并执行适当的行动。业界常见的环境包括文本场景、虚拟沙盘和真实物理环境等。而对小米来说，手机场景也是一个与自身密切相关的环境。手机环境具有可视化、功能丰富、实时反馈等特点。手机中的大量APP涵盖了日常生活的方法面面，也便于模拟和实现各种任务，构建和部署各种场景。此外，手机环境还具有可视化和交互性强的特点，在AI agent和环境交互时，能够提供真实且实时的环境反馈。

为了利用手机环境，我们需要大规模的手机UI数据，以及更适应手机环境的图像大模型。MobileVLM是小米大模型团队在这一方向的一次探索，一方面构建了第一个大规模中文APP数据集，专注于第三方中文APP；另一方面促使VLM更好的捕获UI页面内和不同UI页面间的特征，适应手机UI环境。