Multi-step Jailbreaking Privacy Attacks on ChatGPT
https://arxiv.org/pdf/2304.05197
多步骤越狱隐私攻击对ChatGPT的影响
https://openreview.net/forum?id=ls4Pfsl2jZ
摘要
随着大型语言模型(LLMs)的快速发展,许多下游自然语言处理(NLP)任务在适当的提示下可以得到很好的解决。尽管模型开发者和研究人员努力提高对话安全性,以避免从LLMs生成有害内容,但仍然很难确保人工智能生成的内容(AIGC)用于人类的利益。由于强大的LLMs正在吞噬来自各个领域的现有文本数据(例如,GPT-3是在45TB文本上训练的),很自然地会怀疑训练数据中是否包含了私人信息,以及这些LLMs及其下游应用可能带来哪些隐私威胁。在本文中,我们研究了OpenAI的ChatGPT和由ChatGPT增强的New Bing的隐私威胁,并表明集成到应用中的LLMs可能会引起新的隐私威胁。为此