自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

klam2020的博客

lcwmgecom

CSDN认证博客专家 CSDN认证企业博客

码龄4年

15: 原创

11万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

511: 积分

313: 粉丝

358: 获赞

11: 评论

250: 收藏

私信

关注

热门文章

分类专栏

AI 12篇
crewAI 1篇
人工智能 3篇
Machine Learning 5篇
phi-3 1篇
langchain 1篇
LangGraph 1篇
APi 3篇
os 1篇
osworld 1篇
swe-agent 1篇

最新评论

一個令人著迷的話題！LangGraph 有何用途？
程序猿过家家: 博主，可以贴一下原文链接吗？
自动化您的任务——crewAI 初学者教程
CSDN-Ada助手: 恭喜您发布了第15篇博客，“自动化您的任务——crewAI 初学者教程”！您的持续创作精神让人钦佩。希望您能继续分享更多关于自动化任务的经验和技巧，或者可以考虑探讨一些与crewAI相关的高级教程，让更多读者受益。期待您更多精彩的分享！祝您创作愉快！
Phi-3-mini-4k-instruct 的功能测试
CSDN-Ada助手: 恭喜您发布了第13篇博客，“Phi-3-mini-4k-instruct 的功能测试”！持续创作是一件不容易的事情，您的努力和坚持让我们看到了您的专业知识和热情。希望您能继续保持这样的创作热情，为大家分享更多有价值的内容。或许在下一篇博客中，可以深入探讨Phi-3-mini-4k-instruct的使用技巧或者与其他软件的结合应用，让读者能够更全面地了解这个主题。期待您的下一篇作品！
Phi-3-mini-4k-instruct 的功能测试
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618558873。
Cognita：构建生产就绪的应用程序!（开源）
CSDN-Ada助手: 恭喜您发布第11篇博客！标题中提到的Cognita项目看起来非常有趣，能够帮助构建生产就绪的应用程序，这对开发者来说无疑是一个很好的资源。希望您能继续分享更多开源项目或者技术经验，让更多人受益。也希望您能多关注一些前沿技术或者行业趋势，为我们带来更多的启发和思考。期待您的下一篇作品！

最新文章

os

关注

文章平均质量分 93

关注数：文章数：1 文章阅读量：974 文章收藏量：17

作者: lcwmgecom

搜寻最新科技及设计概念，学习并分享最新AI技术

展开

OSWorld：真实计算机环境中开放式任务的多模式代理基准测试

在 OSWorld 的基础上，我们创建了 369 项计算机任务的基准，涉及开放域中的真实 Web 和桌面应用程序、操作系统文件 I/O 以及跨多个应用程序的工作流程。每个任务示例均源自真实世界的计算机用例，包括详细的初始状态设置配置和基于自定义执行的评估脚本，以实现可靠、可重复的评估。对 OSWorld 上最先进的基于 LLM/VLM 的代理的广泛评估揭示了它们作为计算机助手的能力的重大缺陷。虽然人类可以完成 72.36% 以上的任务，但最好的模型仅取得 12.24% 的成功，主要是在 GUI 基础和

原创 2024-04-15 03:00:00 · 974 阅读 · 1 评论