PromptBench:大型语言模型的对抗性基准测试

deephub

于 2023-06-22 16:47:40 发布

阅读量1.7k

点赞数

文章标签：语言模型人工智能自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deephub/article/details/131342355

版权

PromptBench是微软设计的用于评估大型语言模型对抗性提示鲁棒性的基准，揭示了LLM易受攻击的问题，强调了模型可靠性和健壮性的重要性。研究提供缓解建议，并开源相关代码供进一步研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步，随着这些模型在各种应用中越来越普遍，这个主题也变得越来越重要。

研究及其方法论

PromptBench采用多种对抗性文本攻击，研究人员生成了4000多个对抗性提示，然后通过8个任务和13个数据集对其进行评估。这种全面的方法确保了潜在漏洞的广泛覆盖，并提供了对LLM性能的可靠评估。

研究结果及影响

这项研究的结果表明，当代LLM很容易受到对抗性提示的影响。这个漏洞是一个需要解决的关键问题，以确保llm在实际应用程序中的可靠性和健壮性。作为数据科学家，我们必须意识到这些漏洞，并努力开发能够抵御此类对抗性攻击的模型。

论文还提供了快速减轻这些漏洞的建议。这些建议对于任何使用大模型的人来说都是非常宝贵的，并且可以指导开发更健壮的模型。

开源代码

研究人员已经公开了研究中使用的代码、提示和方法。我们必须继续调查，在它们研究的基础上进行更深入的研究，共同努力推进模型的改进，已经包括的模型如下：

google/flan-t5-large
databricks/dolly-v1–6b
llama-13b
vicuna-13
cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
google/flan-ul2
chatgpt

论文和研究地址：

https://avoid.overfit.cn/post/48766e3c21a8495bb991b0135912ce8e

作者：Praveen Govindaraj

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。