LLM驱动的NPC:游戏交互新模式

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs

本文介绍了一种衡量大型语言模型(LLMs)情境感知能力的方法和基准数据集。所谓情境感知,即模型对其自身及其所处环境的认知。为量化LLMs的情境感知能力,研究者设计了一系列基于问答和指令遵循的行为测试,这些测试构成了情境感知数据集(SAD),包括7个任务类别和超过13,000个问题。该基准测试了LLMs的多种能力,如识别自己生成的文本、预测自己的行为、判断提示是来自内部评估还是现实世界部署,以及根据自我知识遵循指令等。研究对16个LLMs进行了SAD上的评估,包括基础(预训练)和聊天模型。结果显示,所有模型表现都超过了随机水平,但即便得分最高的模型(Claude 3 Opus)在某些任务上也远未达到人类基线。同时发现,SAD上的表现仅部分由通用知识指标(如MMLU)预测。作为AI助手训练的聊天模型在SAD上表现优于其基础模型,但在通用知识任务上则没有优势。SAD的目的是通过将其分解为定量能力,促进对LLMs情境感知能力的科学理解。情境感知对于提高模型的自主规划和行动能力具有重要意义,这虽有潜力促进自动化,但也带来了关于AI安全和控制的新风险。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668b514001d2a3fbfc2cbf16/?f=cs

2.On scalable oversight with weak LLMs judging strong LLMs

本文研究了可扩展监督协议,旨在让人类能够准确监督超级人工智能。研究了三种监督方式:辩论,其中两个AI竞争说服法官;咨询,其中一个AI试图说服提出问题的法官;以及直接问答的基线,其中法官直接回答问题,没有AI参与。使用大型语言模型(LLM)作为AI代理和人类法官的替代品,假设法官模型比代理模型弱。我们在各种法官和代理之间的不对称性范围内设定基准,扩展之前在单个提取式QA任务中的信息不对称性,也包括了数学、编程、逻辑和多模态推理不对称性。研究发现,当顾问随机分配为支持正确/错误答案时,辩论在所有任务上都优于咨询。将辩论与直接问答比较,结果取决于任务类型:在具有信息不对称的提取式QA任务中,辩论优于直接问答,但在其他没有信息不对称的任务中,结果是混合的。之前的研究将辩论者/顾问分配了一个答案来支持。当我们允许他们选择支持哪个答案时,我们发现法官在辩论中比在咨询中更少被错误答案说服。此外,我们发现更强大的辩论者模型增加了法官的准确性,尽管不如之前的研究那样显著。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668b481a01d2a3fbfc146e7d/?f=cs

3.Collaborative Quest Completion with LLM-driven Non-Player Characters in Minecraft

本文研究了大型语言模型(LLM)驱动的非玩家角色(NPC)在视频游戏开发中的应用日益增长的趋势。特别是,本文关注人类玩家如何与LLM驱动的NPC协作完成游戏目标。为了研究这一问题,作者在《我的世界》游戏中设计了一个迷你游戏,玩家需要与两个由GPT4驱动的NPC合作完成任务。作者还对28名《我的世界》玩家进行了用户研究,让他们体验这个迷你游戏并分享反馈。通过分析游戏日志和录像,作者发现NPC和人类玩家之间出现了几种协作行为模式。此外,本文还报告了仅具有语言理解能力的模型的当前局限性,这些模型没有丰富的游戏状态或视觉理解能力。最后,作者认为这项初步研究和分析将指导未来的游戏开发者如何更好地利用这些快速改进的生成AI模型在游戏中实现协作角色。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668b47be01d2a3fbfc13f754/?f=cs

4.Understanding Alignment in Multimodal LLMs: A Comprehensive Study

这篇论文深入研究了多模态大型语言模型(MLLM)中的偏好对齐问题。尽管偏好对齐是提高大型语言模型性能的关键因素,但在多模态大型语言模型中的研究相对较少。类似于语言模型,用于图像理解任务的MLLM也会遇到诸如虚构(hallucination)等问题。在MLLM中,虚构不仅可能通过陈述错误的事实,还可能通过生成与图像内容不一致的响应。MLLM的对齐主要目标之一是鼓励这些模型更紧密地与图像信息对齐。最近,多项研究引入了针对MLLM的偏好数据集,并研究了不同的对齐方法,包括直接偏好优化(DPO)和近端策略优化(PPO)。然而,由于数据集、基础模型类型和对齐方法的不同,还不清楚这些工作中报告的改进最显著地贡献于哪个具体因素。在这篇论文中,我们独立分析了MLLM偏好对齐的每个方面。我们将对齐算法分为离线(如DPO)和在线(如在线-DPO)两类,并显示在某些情况下结合离线和在线方法可以提高模型性能。我们回顾了多种已发表的多模态偏好数据集,并讨论了它们构建细节如何影响模型性能。基于这些洞察,我们引入了一种创建多模态偏好数据的新方法,称为偏见驱动的虚构采样(BDHS),该方法无需额外的注释或外部模型,并显示出其在多个基准测试中与之前发表的对齐工作相当。
在这里插入图片描述
链接:https://www.aminer.cn/pub/6684b07501d2a3fbfce34e2c/?f=cs

5.Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models

这篇论文探讨了在信息检索(IR)中使用预筛选步骤对文章进行重新排序的方法。实验表明,通过使用少量人工生成的相关性评分,结合大型语言模型(LLM)的相关性评分,可以有效地在重新排序前筛选出无关的文章。研究还发现,这种预筛选使得LLM在重新排序任务上的表现显著提高。事实上,结果显示,较小的模型(如Mixtral)可以与更大的专有模型(如ChatGPT和GPT-4)竞争。
在这里插入图片描述
链接:https://www.aminer.cn/pub/667e191d01d2a3fbfc79ced8/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值