ICLR 2024 reviewer评分 5688 1 论文思路 输入转换为密码,同时附上提示,将加密输入喂给LLMLLM输出加密的输出加密的输出通过解密器解密 ——>这样的步骤成功地绕过了GPT-4的安全对齐【可以回答一些反人类的问题,这些问题如果明文问的话,GPT-4会拒绝回答】 2 模型思路 3 实验结果 3.1 不安全比例 3.2 case study