Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs关于大模型后门攻击,以时间事件作为后门攻击的触发器。
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch关于大模型的安全对齐,本文发现并提出了合并后的模型存在对齐问题,随后提出了安全合并方案以解决此问题。
Does Refusal Training in LLMs Generalize to the Past Tense?关于大模型内容安全,本文发现通过简单的将问题的时态改为过去式,就可以绕过大部分大模型的安全过滤。