AgentBench
文章平均质量分 80
由清华大学等开发的AI智能体能力评测工具
大禹智库
大禹智库——河南第一民间智库,致力于钧共体,文旅融合,数字化转型和AI智能体应用四大领域
展开
-
Milvus Cloud 向量数据库Reranker成本比较和使用场景
举一个贴近实际的例子:第一阶段检索中,向量搜索引擎可以在数百万个向量中快速筛选出语义近似度最高的 20 个文档,但这些文档的相对顺序还可以使用 Reranker 进一步优化。那么,相对更加昂贵的 LLM 只需要分析这 top-5 个结果即可,免去了处理 20 个文档带来的更高成本和注意力“涣散”的问题。在 RAG 架构中,Reranker 可以筛选向量搜索的初步结果,丢弃掉与查询相关性低的文档,从而有效防止 LLM 处理无关信息,相比于将向量搜索返回的结果全部送进 LLM 可大大减少生成部分的耗时和成本。原创 2024-04-28 16:39:30 · 407 阅读 · 0 评论 -
WinPlan经营大脑垂直大模型,一站式解决企业经营管理难题
是杭州数利得科技有限公司打造的一款SAAS产品,为市场现存的企业经营管理难题,提供一站式解决方案。助力企业经营管理转型,帮助企业快速实现“经营规划管理&数据分析”今天我们就来介绍一下WinPlan的常见应用场景和功能模块,让需要的同学快速了解产品,并评估自己需求匹配度~WinPlan垂直大模型。原创 2023-08-23 17:58:04 · 102 阅读 · 0 评论 -
ModaHub魔搭社区:AI Agent在网络购物场景下的AgentBench基准测试
左图,几种常见的LLM在AgentBench提供的8种场景中的表现。虚线表示开源LLM(绿色)与基于API的LLM(橙色)的平均得分。AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。其余3个环境是根据已发布的数据集重新编译的,包括家务、网购、网络浏览。研究者还表示,AgentBench是一个多维动态基准测试,目前由8个不同的测试场景组成,未来将覆盖更广的范围,更深入地对LLM进行系统性评估。原创 2023-08-23 12:00:00 · 173 阅读 · 0 评论 -
AI Agent在家务场景下的AgentBench基准测试
AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。完成日常家务劳动需要很强的常识知识作为基础,现有的研究已经为语言智能体的评估构建了完备的环境。在AgentBench中,研究者利用经典的ALFWorld物理家庭环境,根据模型在此环境中完成任务的能力对其进行评估。研究者还表示,AgentBench是一个多维动态基准测试,目前由8个不同的测试场景组成,未来将覆盖更广的范围,更深入地对LLM进行系统性评估。原创 2023-08-22 20:00:00 · 188 阅读 · 0 评论 -
AI Agent在情景猜谜场景下的AgentBench基准测试
例如,一个男人走进一家餐馆,点了一碗甲鱼汤,吃完后自杀了。对LLM的评估主要围绕衡量LLM智能体推断的结论与事实的的接近程度,以及其发现这些事实的速度。左图,几种常见的LLM在AgentBench提供的8种场景中的表现。AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。研究者还表示,AgentBench是一个多维动态基准测试,目前由8个不同的测试场景组成,未来将覆盖更广的范围,更深入地对LLM进行系统性评估。原创 2023-08-22 15:22:01 · 133 阅读 · 0 评论 -
LLM 回答更加准确的秘密:为检索增强生成(RAG)添加引用源
当前,LLM 的最大问题就是缺乏最新的知识和特定领域的知识。(https://zilliz.com/use-cases/llm-retrieval-augmented-generation) 引用源是一种通用的解决方案,可以为 LLM 应用的响应添加引用源,从而为响应提供更多上下文信息。不过,随着越来越多的文档、用例等信息被注入应用中,越来越多开发者意识到信息来源的重要性,它可以确保信息准确性,使得大模型的回答更加真实。在本示例中,我们从百科中获取了不同城市的数据,并进行查询,最终获得带引用的响应。原创 2023-08-20 16:11:58 · 444 阅读 · 0 评论 -
ModaHub魔搭社区:AI Agent在数字卡牌游戏场景下的AgentBench基准测试
最近的一些研究转而采用现实世界的游戏(例如,MineDojo,一个基于游戏Minecraft的开放式通用人工智能体学习平台)作为环境,但大多数需要超出现有LLM的多模式功能。原创 2023-08-24 08:00:00 · 165 阅读 · 0 评论 -
ModaHub魔搭社区:AI Agent在 知识图谱场景下的AgentBench基准测试
为了衡量LLM的决策能力,特别是其在长期规划方面的熟练程度,研究者精心编制了一个数据集,该数据集源自FREEBASE上现有的知识库问答(KBQA)数据集,藉此为LLM配置了一系列知识图谱查询工具。同时,为了保证任务的高难度,研究者仅保留那些至少需要调用5个工具的问题,最终积累了一个包含1663个问题的数据集,用以测试智能体。AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。图注:AgentBench场景示例。原创 2023-08-23 08:00:00 · 181 阅读 · 0 评论 -
ModaHub魔搭社区:AI Agent在数据库场景下的AgentBench基准测试
在AgentBench中,研究者则是在真实的SQL接口和数据库上评估LLM,来模拟现实世界中的场景。原创 2023-08-22 09:00:00 · 125 阅读 · 0 评论 -
ModaHub魔搭社区:AI Agent在操作系统场景下的AgentBench基准测试
允许LLM访问和操作终端(terminal)来控制操作系统是一项颇具挑战性的任务。尽管已经有研究尝试将自然语言翻译为Shell命令,但少有研究对真实的可执行环境进行评估。原创 2023-08-21 21:00:00 · 145 阅读 · 0 评论 -
AgentBench——AI智能体基准测试官方
gpt-44.4136.8133.6752.1450.0017.6078.0058.6022.592.7713.1916.7536.2230.006.3952.0059.2620.972.5532.6415.0027.2030.0014.8514.0067.2115.692.1022.9216.3330.8215.005.2120.0061.4315.521.9014.588.0029.6735.006.0826.00。原创 2023-08-20 21:00:00 · 256 阅读 · 0 评论 -
AgentBench——AI智能体基准测试和排行榜
如果您有兴趣了解有关如何对语言模型基准测试的更多信息,那么一种新的基准测试工具Agent Bench已成为游戏规则的改变者。这个创新工具经过精心设计,将大型语言模型列为代理,对其性能进行全面评估。该工具的首次亮相已经在AI社区掀起了波澜,揭示了ChatGPT-4目前作为性能最佳的大型语言模型而位居榜首。不仅仅是一种工具,而是AI行业的一场革命。它是一个开源平台,可以在桌面上轻松下载和使用,使广泛的用户可以访问它。该工具的多功能性体现在它能够在八个不同的环境中评估语言模型。原创 2023-08-19 21:00:00 · 491 阅读 · 0 评论 -
AgentBench排行榜25个主流LLM作为Agent的能力评估结果和重要结论
上的表现,可以看出代码训练的价值。其中,codegeex2-6b经过代码训练,在操作系统和数据库两个编程相关环境上明显优于chatglm2。但在需要逻辑推理的横向思维难题上,codegeex2-6b的表现下降。上述结论都是基于表的数据分析得到,例如,通过对两个规模相近的模型chatglm2和codegeex2-6b在AgentBench(agentbench。最终,清华大学评估了25个主流的LLM在上述8个任务上的表现来评估各大模型作为Agent的最终得分。GPT-4几乎像全能战士一样,超越所有模型!原创 2023-08-16 21:00:00 · 1331 阅读 · 0 评论