从智能聊天机器人到内容创作辅助工具,从智能客服到智能写作平台,LLMs 已深入人们生活与工作的各个层面。然而,随着应用的不断深入,安全问题逐渐成为制约其发展的关键因素。运用提示技术(prompt)(如何为DeepSeek这类推理模型编写Prompt)保障 LLMs 的安全,成为当前亟待解决的重要课题。
一、大语言模型安全风险洞察
(一)越狱攻击:突破安全边界的威胁
越狱攻击是对 LLMs 安全构成严重威胁的一种手段。它与普通提示注入不同,普通提示注入主要是改变模型行为,而越狱攻击专门针对绕过 LLMs 开发者设置的安全和审核功能,目标是突破伦理约束,这极有可能导致模型生成有害内容或为恶意行为提供支持。
提示级越狱攻击借助语义欺骗和社会工程策略来达成目的。攻击者凭借对语言和上下文的巧妙运用,精心设计具有迷惑性的场景、运用特定的修辞技巧或提出隐晦的间接请求,诱导模型突破安全限制。攻击者可能通过编造看似合理的故事,引导模型输出违反道德或法律规范的内容。</