计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

1. LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

LLMs仍然无法规划;LRMs可以吗?对OpenAI的o1在PlanBench上的初步评估
在这里插入图片描述

摘要

本文探讨了大型语言模型(LLMs)是否具备规划能力,并特别评估了OpenAI最新模型o1(草莓模型)在PlanBench基准上的表现。尽管o1在性能上相较于其他LLMs有显著提升,但仍未达到饱和状态,这引发了关于准确性、效率和保证的讨论。

创新点

  • 提出了将大型推理模型(LRMs)与LLMs进行比较的新视角。
  • 对o1模型在规划任务上的能力进行了初步评估。

算法模型

  • o1模型:OpenAI开发的新型模型,旨在通过更深入的“思考”来解决科学、编码和数学领域的复杂任务。

实验效果

  • Blocksworld Zero Shot: 准确率97.8%,执行时间40.43秒。
  • Mystery Blocksworld One Shot: 准确率41.6%,执行时间82.03秒。
  • Randomized Mystery Blocksworld Zero Shot: 准确率37.3%,执行时间111.11秒。
    在这里插入图片描述
    在这里插入图片描述

重要数据与结论:

  • o1模型在PlanBench上的表现超过了现有的LLMs,但仍未达到最优。
  • 在不同的规划任务中,o1显示出了改进,但仍然存在一定的局限性。

推荐阅读指数:

★★★★☆

推荐理由:

  • 对于对AI规划能力和大型语言模型的最新进展感兴趣的研究者和从业者来说,这篇文章可以参考。
  • 文章讨论了LRMs的潜力和当前的局限性,对于理解未来AI的发展方向具有启发性。

2. Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models

Authors: Gracjan G’oral, Alicja Ziarko, Michal Nauman, Maciej Wo{\l}czyk
https://arxiv.org/abs/2409.12969
通过他们的眼睛看:评估视觉语言模型中的视觉视角获取
在这里插入图片描述

摘要:

本文探讨了视觉语言模型(VLMs)是否具备理解他人视角的能力,这对于预测他人行为至关重要。研究者们开发了两个数据集Isle-Bricks和Isle-Dots来测试VLMs的视觉视角获取(VPT)技能,并评估了12种常用的VLMs。研究发现,当需要进行视角获取时,所有模型的性能都显著下降。

研究背景:

在现实世界中,理解他人的视角对于避免事故、有效协调行动或在社交环境中做出适当反应至关重要。尽管VLMs在许多任务上表现出色,但它们是否具备VPT能力尚不清楚。
在这里插入图片描述
在这里插入图片描述

技术挑战:

  • 如何评估VLMs在VPT任务上的表现。
  • 如何设计能够准确测试VPT技能的数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sp_fyf_2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值