Anthology:利用背景故事增强LLM实验结果一致性和可靠性

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

本文对大型视觉语言模型(LVLMs)受到的各种攻击进行了全面的调查。近年来,随着大型模型的显著发展,LVLMs在多种视觉和语言理解与推理任务中表现出了卓越的能力。与传统的语言模型相比,由于其更接近于多资源现实世界应用的复杂性,LVLMs具有巨大的潜力和挑战。然而,目前对于LVLMs的脆弱性研究相对较少,这在日常生活中可能会带来潜在的安全风险。本文首先介绍了针对LVLMs攻击的背景知识,包括攻击初步、攻击挑战和攻击资源。然后,系统回顾了LVLM攻击方法的发展,包括操纵模型输出的对抗性攻击、利用模型漏洞进行未经授权操作的越狱攻击、工程提示类型和模式的提示注入攻击,以及影响模型训练的数据中毒攻击等。最后,讨论了未来的研究方向。PaliGemma: A versatile 3B VLM for transfer 本文认为,这项调查为理解LVLM漏洞现状提供了洞见,激发了更多研究者探索和减轻LVLM发展中的潜在安全风险。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668f3cf001d2a3fbfcf54d8e/?f=cs

2.PaliGemma: A versatile 3B VLM for transfer

PaliGemma是一个开放的视觉语言模型(VLM),基于SigLIP-So400m视觉编码器和Gemma-2B语言模型构建。该模型旨在成为一个多才多艺、知识面广泛且易于迁移的基础模型,在各种开放世界任务中表现出强大的性能。研究团队在近40个多样化任务上评估了PaliGemma的能力,这些任务包括标准VLM基准测试,以及更为专门的遥感分割等任务。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668f3cf001d2a3fbfcf54e9c/?f=cs

3.Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models

这篇论文介绍了一种名为“Hypothetical Minds”的自主智能体,旨在解决多智能体强化学习(MARL)中的非平稳性和在线适应性问题。该智能体采用了一种认知启发式架构,具有用于感知、记忆和两层抽象的模块化组件。特别引入了一个“理论心智”模块,通过生成自然语言关于其他智能体策略的假设,为高层规划过程提供支持。这个模块会评估并迭代优化这些假设,通过强化那些正确预测其他智能体行为的假设。实验结果表明,在Melting Pot基准测试的一系列竞争性、混合动机和协作领域中,“Hypothetical Minds”显著超过了之前的大型语言模型智能体和强化学习基线,包括双智能体和基于种群的环境。同时,与大型语言模型智能体基线和去噪实验的比较也揭示了在复杂场景中成功的重要性。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668deb6d01d2a3fbfc1601ef/?f=cs

4.Composable Interventions for Language Models

这篇论文提出了一种名为“可组合干预”的新框架,用于研究对同一代语言模型应用多个干预措施的效果。这种方法可以在不需要重新训练的情况下,提高模型的的事实准确性,减轻有害输出,并提高模型效率。尽管已有大量新方法问世,但不同类型的干预措施主要是在独立发展。在实际应用中,必须依次对同一模型应用多个干预措施,但我们缺乏研究干预措施之间如何互动的标准化方法。该框架包括新的评估指标和统一的代码库。研究者利用这个框架,对三个新兴干预类别——知识编辑、模型压缩和机器遗忘进行了广泛的实验组合。通过310种不同的组合发现,压缩会阻碍编辑和遗忘,干预措施的组合取决于它们应用的顺序,并且流行的通用评估指标对于评估组合性是不够的。总的来说,这些发现清楚地暴露了组合性方面的差距,表明需要新的多目标干预措施。研究者的所有代码都是公开的。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668deb4201d2a3fbfc1549c2/?f=cs

5.Virtual Personas for Language Models via an Anthology of Backstories

本文介绍了一种通过利用开放式人生故事来引导大型语言模型(LLM)生成特定虚拟人格的方法,这些故事被称为“背景故事”(backstories)。该方法名为“Anthology”,可以增强实验结果的一致性和可靠性,同时确保代表不同子群体的多样性。在皮尤研究中心的美国趋势面板(ATP)进行的三个具有全国代表性的调查中,我们表明Anthology可以实现多达18个人类受访者的回应分布和27个指标。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668deb4201d2a3fbfc154a1d/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 18
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值