
论文精读记录
Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation》本篇论文是越狱相关,区别于以往的提示词越狱,本文采用不安全的解码方式,以使大模型趋向有害输出。同时本文使用此方法探讨了安全回复的边界。源于之前观察到的一个关键现象:尽管llm中的偏好对齐改变了模型利用知识的方式,但它并没有从根本上消除存储在模型参数中的潜在有害信息本篇论文针对的模型都是安全对齐过后的模型。














