Poster: BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT
最近,ChatGPT由于其与人类高效交互的能力在研究中收到广泛关注【背景】。在这个模型后面的核心思想是强化学习(RL)微调,是让语言模型能够和人类便好对其的一个新范式,如:InstructGPT【研究对象介绍】。在本研究,我们提出了BadGPT,第一个在语言模型中的对RL fine-tuning进行后门攻击的工作【本文核心】。通过在奖励模型中注入后门攻击,语言模型会在微调的过程中被折中妥协【方法】。
原创
2023-06-08 11:17:07 ·
302 阅读 ·
1 评论