计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

sp_fyf_2024

已于 2024-09-27 21:01:34 修改

阅读量1.4k

点赞数 13

分类专栏：人工智能前沿技术大语言模型深度学习文章标签：人工智能算法语言模型数据挖掘自然语言处理深度学习神经网络

于 2024-09-26 09:18:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fyf2007/article/details/142539689

版权

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

1. LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

LLMs仍然无法规划；LRMs可以吗？对OpenAI的o1在PlanBench上的初步评估
在这里插入图片描述

摘要

本文探讨了大型语言模型（LLMs）是否具备规划能力，并特别评估了OpenAI最新模型o1（草莓模型）在PlanBench基准上的表现。尽管o1在性能上相较于其他LLMs有显著提升，但仍未达到饱和状态，这引发了关于准确性、效率和保证的讨论。

创新点

提出了将大型推理模型（LRMs）与LLMs进行比较的新视角。
对o1模型在规划任务上的能力进行了初步评估。

算法模型

o1模型：OpenAI开发的新型模型，旨在通过更深入的“思考”来解决科学、编码和数学领域的复杂任务。

实验效果

Blocksworld Zero Shot: 准确率97.8%，执行时间40.43秒。
Mystery Blocksworld One Shot: 准确率41.6%，执行时间82.03秒。
Randomized Mystery Blocksworld Zero Shot: 准确率37.3%，执行时间111.11秒。

重要数据与结论:

o1模型在PlanBench上的表现超过了现有的LLMs，但仍未达到最优。
在不同的规划任务中，o1显示出了改进，但仍然存在一定的局限性。

推荐阅读指数：

★★★★☆

推荐理由:

对于对AI规划能力和大型语言模型的最新进展感兴趣的研究者和从业者来说，这篇文章可以参考。
文章讨论了LRMs的潜力和当前的局限性，对于理解未来AI的发展方向具有启发性。

2. Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models

Authors: Gracjan G’oral, Alicja Ziarko, Michal Nauman, Maciej Wo{\l}czyk
https://arxiv.org/abs/2409.12969
通过他们的眼睛看：评估视觉语言模型中的视觉视角获取
在这里插入图片描述

摘要：

本文探讨了视觉语言模型（VLMs）是否具备理解他人视角的能力，这对于预测他人行为至关重要。研究者们开发了两个数据集Isle-Bricks和Isle-Dots来测试VLMs的视觉视角获取（VPT）技能，并评估了12种常用的VLMs。研究发现，当需要进行视角获取时，所有模型的性能都显著下降。

研究背景：

在现实世界中，理解他人的视角对于避免事故、有效协调行动或在社交环境中做出适当反应至关重要。尽管VLMs在许多任务上表现出色，但它们是否具备VPT能力尚不清楚。
在这里插入图片描述

技术挑战：

如何评估VLMs在VPT任务上的表现。
如何设计能够准确测试VPT技能的数据

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sp_fyf_2024 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。