
agent 论文解读
文章平均质量分 85
ZHOU_CAMP
Focus on AI Agent related
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SurveyX: Academic Survey Automation via Large LanguageModels 论文简介
SurveyX的诞生标志着自动化学术写作迈入新阶段。尽管完全替代人类专家仍需时日,但其高效性与可靠性已为研究者提供了强大助力。或许在不久的将来,撰写综述将像“提问”一样简单——输入主题,即可获得一份结构清晰、引用严谨的学术地图。项目地址论文链接arXiv预印本。原创 2025-02-28 00:22:26 · 1149 阅读 · 0 评论 -
Qwen2.5-max 性能
Qwen2.5-Max在通识知识、编程、数学推理、中文理解等多个方面都表现出色,尤其在数学推理(GSM8K:94.5)和代码生成(MBPP:80.673.2)上明显领先。相较于Qwen2.5-72B、DeepSeek-V3和LLaMA3.1-405B,Qwen2.5-Max在所有基准测试上均表现更优,说明其在多模态任务、逻辑推理、数学推理和代码能力上具备极强的竞争力。原创 2025-01-29 21:14:33 · 2458 阅读 · 0 评论 -
Deepseek-R1性能指标
衡量模型在高难度通用知识问答(General-Purpose Question Answering)任务上的解答能力。主要衡量模型在数学竞赛题目上的解题能力。该任务测试模型在多学科知识上的表现。评估模型在编程竞赛环境中的排名。衡量模型在软件工程任务中的能力。评估模型在数学题目上的准确性。原创 2025-01-28 02:21:04 · 4167 阅读 · 0 评论 -
Visual RAG: Expanding MLLM visual knowledge without fine-tuning 论文简介
其中,检索增强生成(Retrieval-Augmented Generation,RAG)是一种有效的方法,它通过检索相关的外部知识来增强 LLMs 的生成能力。本文将介绍一篇关于 Visual RAG 的论文,该论文提出了一种新的方法,利用检索增强生成来提升 LLMs 的可视化理解能力。实验结果表明,Visual RAG 方法在所有数据集上都取得了显著的性能提升,平均准确率比零样本学习提高了 21.25%,比 Many-shot ICL 方法提高了 8.99%。原创 2025-01-26 01:21:09 · 383 阅读 · 0 评论 -
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks 论文简介
这篇论文提出了一种名为Mobile-Agent-E的自进化移动助手,旨在通过自我学习和改进,实现更高效、更智能的移动设备操作。具体来说,Mobile-Agent-E通过自我进化模块生成的新的操作指令和策略,有效解决了之前模型中存在的问题。例如,在处理需要多次交互的任务时,Mobile-Agent-E能够自动生成更加高效的操作序列,避免了不必要的步骤。这导致它们在处理复杂、多变的任务时表现不佳。Mobile-Agent-E的成功表明,通过自我学习和改进,智能助手能够显著提升其在复杂任务中的表现。原创 2025-01-25 02:11:22 · 808 阅读 · 0 评论 -
Magnetic-One: A Generalist Multi-Agent System for Solving Complex Tasks 论文简介
本文将对微软研究院最新发表的论文《Magnetic-One: A Generalist Multi-Agent System for Solving Complex Tasks》进行解析,该论文提出了一个名为“Magnetic-One”的多代理系统框架,用于解决复杂的开放式任务。这个系统通过协调不同类型的智能体(如编码器、文件管理器和网络浏览器)来实现任务的自动化执行。我们将在下文中探讨该系统的研究动机、核心思想、关键组件和技术细节,并对其性能评估和潜在的应用领域进行分析。原创 2025-01-24 03:31:00 · 628 阅读 · 0 评论 -
MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries 论文简介
随着大型语言模型(LLM)如ChatGPT的出现,自然语言处理领域取得了显著进展。然而,这些模型的输出有时可能包含错误或不准确的信息,这限制了它们在实际应用中的可靠性。为了解决这个问题,研究人员提出了检索增强生成(RAG)技术,该技术通过将外部知识库与LLM相结合,提高了生成的响应的质量和准确性。本文介绍了MultiHop-RAG,这是一个用于评估RAG系统性能的新基准测试数据集。与其他现有的RAG数据集不同,MultiHop-RAG专注于复杂的。原创 2025-01-22 03:30:15 · 1130 阅读 · 0 评论 -
Learning to Refine Query for Retrieval Augmented Generation 论文简介
随着人工智能技术的不断发展,大型语言模型(LLM)如GPT系列、BERT等在自然语言处理领域取得了显著成果。然而,这些模型的知识更新能力有限,难以实时获取最新的信息。为了解决这一问题,研究者们提出了检索增强生成(RAG)技术,通过结合外部数据库的信息来提升模型的性能。原创 2025-01-21 18:13:27 · 401 阅读 · 0 评论 -
MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation 论文简介
随着移动计算能力的提升和数据量的爆炸式增长,用户设备上的信息处理需求日益增加。传统的检索增强生成(RAG)技术主要应用于服务器端的大型文档处理,如学术文献和新闻报道。然而,对于个人通信、本地文件管理和即时消息场景下的信息检索和生成任务来说,这些技术往往过于复杂且资源密集型。因此,开发适用于边缘设备的轻量级RAG系统势在必行。本文提出了一个名为“MiniRAG”的新框架,旨在解决上述挑战。MiniRAG是一种高效的检索增强生成系统,专为资源受限的环境而设计。原创 2025-01-21 00:23:47 · 844 阅读 · 0 评论 -
LightRAG: Simple and Fast Retrieval-Augmented Generation 论文简介
随着大型语言模型(LLM)的发展,它们在自然语言处理任务中展现出了强大的能力。然而,这些模型的知识可能不够全面或者过时,限制了它们的实用性和可靠性。为了解决这个问题,研究人员提出了检索增强生成(RAG)技术,它通过结合外部知识源来丰富LLM的能力。本文将详细介绍一种名为LightRAG的新型RAG框架,该框架利用图结构来更有效地理解和检索信息,从而显著提高答案的质量和多样性。原创 2025-01-20 11:50:48 · 698 阅读 · 0 评论 -
Agent Laboratory: Using LLM Agents as Research Assistants 论文简介
随着人工智能技术的飞速发展,机器学习领域正以前所未有的速度推进科学发现和技术创新。然而,传统的科学研究模式往往受到时间、资源和专业知识限制,阻碍了研究者们探索新想法的能力。为了解决这一挑战,引入了一个名为“AgentLaboratory”的开源框架,它利用大型语言模型(LLMs)构建了一组自动化代理,能够完成从研究构思到最终报告的全流程工作。本文将详细介绍这个智能实验室的工作原理、评估它的性能,并探讨它在推动科研自动化的潜力。原创 2025-01-20 00:18:30 · 927 阅读 · 0 评论 -
AGENTTREK: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials 论文简介
具体来说,在WebArena基准测试平台上评估了经过AgentTrek数据训练的文本型代理,发现它们的任务成功率大幅提升,甚至超过了基于GPT-4的基线模型。然而,训练高效且可靠的网页代理模型需要大量的多步骤轨迹数据,这些数据的收集通常既昂贵又耗时。AgentTrek的数据集涵盖了广泛的不同类型的任务和多个领域,这有助于提高网页代理模型的泛化能力。我们的数据集包含了丰富的多媒体资源,包括DOM/HTML结构、AXTree快照、视频记录和对应的屏幕截图,这对于长期规划任务的训练至关重要。原创 2024-12-19 00:39:04 · 761 阅读 · 0 评论 -
Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models 论文简介
本文将详细介绍一篇题为《利用大型语言模型撰写维基百科风格的文章从零开始》(Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models)的论文。该论文由肖艺嘉、姜雨城、坎内尔·彼得、徐佩德、哈塔卜·奥马尔和拉姆·莫妮卡·斯蒂芬等人共同完成,他们来自斯坦福大学。论文探讨了如何有效地使用大型语言模型来生成类似于维基百科的高质量、全面且深度的文章。原创 2024-12-18 00:14:04 · 372 阅读 · 0 评论 -
The BrowserGym Ecosystem for Web Agent Research 论文简介
随着人工智能技术的不断发展,自动化任务处理已经成为提高工作效率和生活质量的重要手段之一。特别是在互联网时代,能够通过网页界面实现自动化的智能代理(即“web agent”)有着广泛的应用前景。然而,现有的web agent评估基准存在碎片化的问题,这给研究者们比较不同模型的性能带来了困难。为了解决这一挑战,本文提出了一个名为“BrowserGym”的生态系统,它提供了统一的接口来评估和训练web agent,同时还支持多种流行的web agent评估基准。原创 2024-12-17 00:39:20 · 825 阅读 · 0 评论 -
AutoGLM: Autonomous Foundation Agents for GUIs 论文简介
在AndroidLab这个安卓设备控制的学术基准测试中,AutoGLM实现了36.2%的成功率,领先于其他比较的对象,如GPT-4o(成功率为31.2%)和Claude-3.5-Sonnet(成功率为29.0%)。这是一种特殊的评估函数,它不仅考虑最终目标的达成情况,还关注智能体在整个任务过程中的表现。在OpenTable的真实世界预订任务评估中,AutoGLM再次展现了它的实力,成功率达到96.2%,同样超越了GPT-4o(成功率为62.6%)和Agent Q(成功率为81.7%)。原创 2024-12-15 22:42:42 · 1270 阅读 · 0 评论 -
HuggingGPT Solving AI Tasks with ChatGPT and its Friends in Hugging Face 论文解读
然而,当前的LLMs仍然存在一些局限性,例如无法处理复杂信息(如视觉和语音),难以协调多个模型解决复杂任务,以及在特定任务上表现不如专家模型等。为了解决这些问题,论文提出了HuggingGPT,一个基于LLMs的智能体,它利用LLMs(如ChatGPT)连接机器学习社区(如Hugging Face)中的各种AI模型,以解决复杂的AI任务。HuggingGPT为实现通用人工智能铺平了道路,并具有巨大的潜力。HuggingGPT的核心思想是利用LLMs作为控制器,管理现有的AI模型,以解决复杂的AI任务。原创 2024-12-13 00:28:07 · 1435 阅读 · 0 评论 -
Data Interpreter: An LLM Agent for Data Science 论文
数据科学工作流程通常涉及复杂的任务,需要迭代改进和实时调整,而现有的 LLM 方法往往专注于单个任务,缺乏对整个工作流程的评估,并且难以处理中间数据的实时变化和任务依赖关系的动态演变。Data Interpreter 为 LLM 在数据科学领域的应用开辟了新的方向,它通过层次图建模和可编程节点生成等技术,有效地解决了数据科学工作流程中的挑战。未来,随着 LLM 技术的不断发展和数据集的不断完善,Data Interpreter 有望在更广泛的数据科学应用中发挥更大的作用。原创 2024-12-11 16:00:05 · 1114 阅读 · 0 评论 -
METAGPT
然而,现有的系统在处理复杂任务时,由于LLMs之间的级联幻觉,往往会出现逻辑不一致的问题。为了解决这一问题,本文介绍了MetaGPT,一个创新的元编程框架,它将高效的人类工作流程融入到基于LLMs的多智能体协作中。MetaGPT是一个创新的元编程框架,它将高效的人类工作流程融入到基于LLMs的多智能体协作中。MetaGPT为基于LLMs的多智能体系统提供了一种新的思路,它将人类实践融入到智能体协作中,从而提高了系统的效率和可靠性。MetaGPT的研究成果为未来开发更智能、更强大的多智能体系统奠定了基础。原创 2024-12-08 23:36:23 · 699 阅读 · 0 评论 -
AppAgent
这些模型不仅能够理解和生成自然语言,还能够执行复杂的任务,例如推理、规划和协作。为了解决这个问题,本文介绍了一种基于 LLM 的多模态 agent 框架,该框架能够像人类用户一样操作智能手机应用程序。为了评估 agent 的性能,作者在 10 个不同的应用程序上进行了 50 个任务的测试,包括社交媒体、电子邮件、地图、购物和图像编辑工具等。本文提出的多模态 agent 框架为 LLM-based agents 在智能手机应用程序操作领域中的应用提供了新的思路。原创 2024-12-07 00:09:39 · 452 阅读 · 0 评论 -
Mobile-Agent-v2
本文将详细介绍一篇论文,提出了一种名为 Mobile-Agent-v2 的多智能体架构,旨在解决这些导航挑战,并提升移动设备操作任务的完成效率。Mobile-Agent-v2 通过多智能体协作,有效地解决了移动设备操作任务中的导航挑战,并显著提升了任务完成效率。未来研究可以探索自动生成高质量操作知识的可能性,以进一步提高 Mobile-Agent-v2 的性能,并拓展其在移动应用测试等领域的应用。Mobile-Agent-v2 是一个具有创新性的多智能体架构,为移动设备操作助手的研究开辟了新的方向。原创 2024-12-06 18:08:19 · 1267 阅读 · 1 评论 -
MOBILE-AGENT
为了评估 Mobile-Agent 的性能,论文作者提出了一个名为 Mobile-Eval 的基准测试,该基准测试包含 10 个常用的移动应用程序,并设计了不同难度的指令。然而,现有的 MLLM,包括最先进的 GPT-4V,在视觉感知方面仍存在不足,无法有效地定位操作位置,限制了其在移动设备操作中的应用。Mobile-Agent 的出现为移动设备操作提供了一种新的解决方案,并为未来 MLLM 在移动设备领域的应用提供了新的思路。原创 2024-12-05 17:20:34 · 699 阅读 · 0 评论