写在前面:本文主要聚焦两部分内容,其一是通过代码实践来研究和验证基于llamafirewall在提示词注入防护的能力,通过学习此部分可以理解大模型自身防护中最关键的部分-提示词注入的防护方法;其二是了解如果评估一个大模型是否安全,我们所知道的GPT4、deepseek、claude、QWEN等通用大模型在发布时都会展示自己在各类benchmark上的得分情况,包括通用语言理解GLUE、多学科知识与推理MMLU、代码生成HumanEval等等,理所当然,也需要一个考量大模型安全能力的基准,CyberSecEval就是一套安全基准,通过研究评估函数和数据集,可以深入理解大模型基准测试的过程和原理。
(祝大家五一节快乐,代码调通了我的五一正式开始)
正文开始先说结论,llama Firewall的提示词检测模块核心基于meta-llama/Llama-Prom