微软发布Windows Agent Arena 为生成式AI代理提供基准测试

使用生成式人工智能和大型语言模型来自动化和简化使用 PC 的人员的任务的情况持续增长。不过,人们也需要了解人工智能在完成任务方面的工作表现。本周微软研究院宣布,它已开发出一种专门用于在 Windows PC 上测试人工智能代理的基准。

在这里插入图片描述
微软在 GitHub 页面上公布的这一基准名为 Windows Agent Arena。该框架旨在测试人工智能代理与人类通常使用的 Windows 应用程序的交互能力和速度。在 Windows Agent Arena 中与 AI 代理进行测试的应用程序列表包括Microsoft Edge 和Google Chrome 浏览器等网页浏览器、文件资源管理器设置等操作系统功能、Visual Studio Code 等编码应用程序、记事本、时钟和画图等简单的预装 Windows 应用程序,甚至还包括使用 VLC 播放器观看视频。

微软表示:

我们对 OSWorld 框架进行了调整,创建了 150 多个不同的 Windows 任务,这些任务跨越了需要代理在规划、屏幕理解和工具使用方面具备能力的代表性领域。我们的基准还具有可扩展性,可在 Azure 中进行无缝并行化,在短短 20 分钟内即可完成完整的基准评估。

在这里插入图片描述
微软研究院也创建了自己的多模式代理,名为 Navi,并在 Windows Agent Arena 基准测试中进行了测试。测试要求它在某些文本提示下执行任务,例如:"你能把我正在浏览的网站转换成 PDF 文件并放到我的主屏幕上吗?"测试发现,Navi 的平均成功率为 19.5%,与人类 74.5% 的成功率相比仍然很低。

有了 Windows Agent Arena 这样的基准,对创建人工智能代理来说将是一个巨大的发展,这样它们就能得到改进,表现得更接近人类的水平。

微软团队还与卡内基梅隆大学和哥伦比亚大学的研究人员合作完成了该项目。您可以在 GitHub 上查看论文全文以及该基准的代码。

https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf

https://github.com/microsoft/WindowsAgentArena

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

### 生AI Agent的工作原理 生AI Agent融合了生对抗网络(GAN)、变分自编码器(VAE)以及其他先进的机器学习架构来模拟人类创造力并作出智能化决策[^3]。这类智能体不仅能够理解输入的数据模,还能基于这些模创造新的内容或解决方案。 #### 数据驱动的学习机制 为了实现高效运作,生AI Agent依赖于大规模高质量数据集进行训练。在这一过程中,特别关注数据预处理、特征提取以及模型参数优化等方面的技术细节。通过不断迭代改进,使得最终构建出来的模型可以更好地捕捉到隐藏在原始资料背后的规律性信息。 #### 多模态感知与表达能力 不同于传统单一类型的输入输出方,现代生AI Agent支持多种感官通道的同时接入——包括但不限于视觉图像识别、语音信号解析等,并能据此生相应形态的结果对象。这种多维度交互特性极大地拓宽了其适用范围和服务边界[^4]。 ```python import torch from transformers import GPT2LMHeadModel, GPT2Tokenizer tokenizer = GPT2Tokenizer.from_pretrained('gpt2') model = GPT2LMHeadModel.from_pretrained('gpt2') def generate_text(prompt): inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate(**inputs, max_length=50, num_return_sequences=1) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result ``` 这段Python代码展示了如何利用预训练的语言模型快速搭建一个简单的文本生引擎,这仅仅是众多可能性中的冰山一角而已。 --- ### 应用领域概览 随着技术进步与发展熟度提升,生AI Agent已经广泛渗透至各行各业当中: - **创意产业**:无论是音乐创作还是美术设计,借助此类工具可以帮助艺术家们突破灵感瓶颈,探索前所未有的艺术表现手法; - **医疗健康服务**:个性化治疗方案推荐系统依靠强大的数据分析能力和精准预测功能,在改善患者体验方面发挥着重要作用; - **金融科技革新**:风险管理评估体系引入创新性的算法框架后变得更加灵活可靠,有助于金融机构制定更为科学合理的投资策略; - **教育辅导平台**:虚拟教师形象生动逼真地呈现知识点讲解视频,让远程教学变得不再枯燥乏味,同时也促进了教育资源公平分配进程加快。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值