AI_Agent
文章平均质量分 95
HERODING77
本科大连理工大学软件工程,目前华东师范大学数据学院硕士在读,兴趣方向为智能体,LLM,自然语言处理,知识图谱,NER,联邦学习,数据结构与算法。
展开
-
【论文通读】GUICourse: From General Vision Language Model to Versatile GUI Agent
一篇关于构建提升GUI智能体能力的数据集的文章,文章提到的关于提升GUI能力的三个点听起来还是比较合理的,此外,数据集的数量非常丰富,比起一些benchmark只提供几百条数据显得很有诚意。总的来说是关于提升GUI智能体能力的一个比较有想法的工作。PaperGithubVLMs的进步得以帮助人类完成GUI任务,然而,现有的VLMs受到基础能力(OCR & grounding)以及GUI知识方面的挑战,这阻碍了它们成为实用的GUI智能体。原创 2024-07-05 00:22:06 · 785 阅读 · 0 评论 -
【论文通读】GUI Action Narrator: Where and When Did That Action Take
一篇GUI操作benchmark的工作,作者提出了一个GUI benchmark以及一个提高MLLM GUI操作能力的框架,在一定程度了提高了开源和闭源MLLM的GUI的性能。文章出发点比较有趣,但是逻辑上有点不自洽,不过整个工作的方向确实是当前的主流,值得深入去思考。PaperHomePage多模态LLMs的出现为自动化GUI任务带来了可能。构建GUI自动化系统的一个基本方面是理解原始GUI操作,它可以让智能体学习人类的操作,因此至关重要。原创 2024-07-01 17:13:28 · 881 阅读 · 0 评论 -
【论文通读】SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
一篇开创性的关于GUI智能体的工作,作者指出了当前GUI智能体面临的关键问题——GUI grounding能力不足,并基于此做了一系列工作,为提升GUI智能体性能指明了新的方向。Papergithub当前,GUI智能体与数字终端交互的方式通过提取的结构化信息,这些信息可能冗长或者无法访问。为此,本文提出SeeClick,只依赖于截图执行自动化任务。原创 2024-06-23 14:30:58 · 743 阅读 · 0 评论 -
【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos
数字智能体的探索又来到了新的阶段,除了常见的桌面工具如PPT,Word,Excel,对于专业工具的使用是一个值得探索的领域,此外,专业工具往往对应着复杂的操作,面对几十上百操作的任务,当前的智能体能否根据query来给出相应的回答呢,本篇VideoGUI为这些问题指明了方向。Paperhomepage自动化GUI可以提高人类生产力,但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI,旨在评估以视觉为中心的GUI任务上的智能体。原创 2024-06-20 16:29:32 · 745 阅读 · 0 评论 -
【论文通读】AgentStudio: A Toolkit for Building General Virtual Agents
来自昆仑万象的一篇智能体环境数据大一统框架工作,对未来计算机智能体的发展具有指导性意义,作者在环境上对计算机智能体的输入输出进行了统一,基于该环境又设计了智能体数据的收集评估框架,通过实验也验证了数据集收集的重要性。此外它还提供了丰富的文档,便于初学者学习。PaperDocumentFrom创造在任意数字设备上操作任意软件的自主虚拟智能体仍然是当前AI的主要挑战。关键的两点障碍在于:现实环境中构建虚拟智能体的基础设施不足,以及对基础智能体能力评估的需求。原创 2024-04-06 18:11:18 · 1136 阅读 · 0 评论 -
【论文通读】AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
微软在智能体方面的又一重大工作,通过对话式多智能体协作的方式构建智能体系统,以解决各种应用场景下的问题。相对于文章本身,我更希望读者关注其在github上项目的工作,毕竟智能体的工作本质上都是工程化的内容,只有实际参与了项目本身你才能真正理解AutoGen的意义并感受其实用性。PaperCodeFromAutoGen是允许开发者通过多智能体的形式构建LLM应用的开原框架,这些智能体通过对话完成任务。AutoGen可定制化、可对话,并且可以在各种LLMs、用户输入和工具组合的模式下运行。原创 2024-03-30 23:40:45 · 1300 阅读 · 0 评论 -
【论文通读】UFO:A UI-Focused Agent for Windows OS Interaction
Windows客户端第一个JARVIS,利用GPT4 Vision识别截图信息辅助智能体自动化执行操作,作为微软大肆宣传的一篇工作,其前瞻性还是值得学习的,只不过在实现上博主认为还有很大的改进空间,不过也算是Windows端AI助手的基石工作了。PaperCodeFrom本文提出UFO,一种新颖的以UI为中心的智能体,它利用GPT-Vision的功能满足针对Windows操作系统上的应用程序定制用户的请求。UFO采用双智能体框架来观察和分析Windows下应用的图像化界面和控制信息。原创 2024-03-29 17:19:12 · 1253 阅读 · 0 评论 -
【论文精读】OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
这是第一篇OS智能体框架工作,提出了操作系统上通用且能自我改进的AI助手FRIDAY,这与只能解决简单问题的AI助手Cortana相比有着本质的区别和显著的提升。其github仓库开放一周就收获了600+stars,受到了大量科研人员和科技企业的关注,在业界有着不俗的影响力。文章投稿于ICML 2024,为LLM智能体在OS领域的应用奠定了坚实的基础。PaperCodeFrom与计算机的自动交互一直是长期存在的挑战,最近LLM的发展加速了构建数字智能体的进展。原创 2024-02-23 18:20:38 · 2004 阅读 · 2 评论 -
【论文精读】A Survey on Large Language Model based Autonomous Agents
一篇来自人大高瓴的综述,详细介绍了基于LLM的智能体的发展和应用,以及对未来的预测。作为AI当前最火的领域,智能体上手容易,操作简单,本质上就是框架+prompt,但是其效果惊艳,能够完成很多LLM无法完成的简单任务,其在未来一定大有可为。PaperCodeFrom自主智能体一直都是学术界和工业界的重点研究焦点。先前的研究关注于具有有限知识的智能体在隔绝环境下的训练,这与人类学习方式大相径庭,因此很难像人类一样做决策。最近,LLMs通过获取的丰富web知识,在完成人类等级只能上展现出非凡的潜力。原创 2024-01-03 12:59:14 · 2295 阅读 · 0 评论 -
【论文精读】GAIA: A Benchmark for General AI Assistants
一篇来自Meta、HuggingFace、AutoGPT联合投稿的Agent Benchmark的工作,为当前百花齐放的Agent领域带来了评测的标准。这篇工作详细介绍了GAIA的设计理念,展望了GAIA的未来,讨论了当前GAIA的不足,细读下来可以看到这些大佬们对于这个当前火热领域的热切期待。PaperCodeFrom本文提出GAIA,一个通用AI助手的benchmark。GAIA提出真实世界的问题,需要一系列基本能力,如推理,多模态处理,网页浏览和一般工具使用等。原创 2023-12-11 19:18:14 · 1658 阅读 · 0 评论 -
【论文精读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
一篇来自ICLR 2023的文章,可以称得上是当今火爆全网的Agent的鼻祖工作了,它提出了基于LLM初始的Agent的范式,在问答任务和决策任务上都取得了不错的结果,但是受限于LLM的能力,导致与人类的SOTA相距甚远。PaperCodeFromICLR 2023LLMs在语言理解和交互决策上表现出令人印象深刻的性能,其推理能力也作为了一个单独研究的主题。本文探索使用交互的方式生成推理任务特定动作,使二者具有更大的协同性。原创 2023-12-09 16:43:40 · 2795 阅读 · 2 评论 -
【论文精读】CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society
一篇利用LLM通过多智能体对话的形式完成特定任务的工作,中稿于NeurIPS 2023,它最大的特色在于设计了丰富的规范约束prompt,只需要很少的人工干预,就可以让多智能体自动完成任务。PaperCodeFrom随着对话式语言模型的迅速发展,在复杂任务的解决上取得了显著的进展。然而,这些成功依赖于人类的输入来指引对话,这既具有挑战性又耗时。本文探讨了构建可扩展技术以促进沟通式智能体之间自主合作的潜力,并深入了解其认知的过程。为了解决自主合作的挑战,本文提出了一种名为角色扮演的新型沟通式智能体框架。原创 2023-12-01 18:12:25 · 1591 阅读 · 0 评论 -
【论文精读】HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
又是一篇利用LLM进行规划的工作,中稿于NeurIPS 2023,它充分结合了专家模型解决特定任务的能力和LLMs的理解推理能力,工作新颖但效果一般,可以说提供了一种新的利用LLM解决通用任务的范式,在思想上值得借鉴。解决具有不同领域和模态的复杂人工智能任务是迈向通用人工智能的关键,虽然现在有大量可以用的AI模型面向不同领域和模态,但是它们不能解决复杂的AI任务。LLM在自然语言任务上有出色的表现,因此作者主张LLMs充当控制者来管理当前现有的AI模型,用于处理AI任务,自然语言则成为实现该目标的通用接口。原创 2023-11-23 11:57:16 · 1217 阅读 · 0 评论 -
【论文精读】VOYAGER: An Open-Ended Embodied Agent with Large Language Models
一篇AI-Agent的文章,论文一出即火遍全网,用大语言模型玩Minecraft,在这之前想都不敢想。文章中所有的工作基本上都是基于prompt实现的,这也进一步说明了GPT-4丰富的知识储备和强大的理解能力。作者从人学习的角度出发,让LLM也遵循人学习的范式,一步步在未知的世界中进行探索,这样的工作思路对探索当前大语言模型的能力来说可谓至关重要。PaperCodeFromarXiv本文提出VOYAGER,这是在Minecraft中第一个由LLM驱动的终身学习智能体,用于持续探索这个世界。原创 2023-11-15 18:53:45 · 1221 阅读 · 0 评论