本文是LLM系列文章,针对《S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models》的翻译。
摘要
大型语言模型(LLM)因其革命性的功能而备受关注。然而,人们也越来越担心其安全影响,因为LLM产生的输出可能包含各种有害内容,因此在模型部署之前迫切需要对LLM进行全面的安全评估。现有的安全评估基准仍然存在以下局限性:1)缺乏统一的风险分类法,难以系统地对不同类型的风险进行分类、评估和认识;2)薄弱的风险限制了有效反映LLM安全性的能力;3)测试提示生成、选择和输出风险评估缺乏自动化。
为了应对这些关键挑战,我们提出了S-Eval,这是一种新的全面、多维和开放式LLM安全评估基准。S-Eval的核心是一个新的基于LLM的自动测试提示生成和选择框架,该框架训练专家测试LLM M t M_t