SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

最新推荐文章于 2024-09-02 19:40:12 发布

UnknownBody

最新推荐文章于 2024-09-02 19:40:12 发布

阅读量51

点赞数

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136847355

版权

Survey Paper 同时被 3 个专栏收录

184 篇文章 7 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

515 篇文章 3 订阅

已下架不支持订阅

LLM Security and Privacy

55 篇文章 3 订阅

订阅专栏

SALAD-Bench是一个针对大型语言模型（LLM）的全面安全评估基准，涵盖广泛的测试用例，包括攻击和防御方法。通过创新的评估器MD Judge，该基准对LLM的安全性进行了深入分析，揭示了模型对新兴威胁的抵抗力和现有防御策略的效果。SALAD Bench的数据和评估器可在https://github.com/OpenSafetyLab/SALAD-BENCH找到。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark
for Large Language Models》的翻译。

摘要

在快速发展的大型语言模型（LLM）中，确保稳健的安全措施至关重要。为了满足这一关键需求，我们提出了SALAD Bench，这是一个专门用于评估LLM、攻击和防御方法的安全基准。SALAD Bench以其广度而闻名，其规模大、多样性丰富、跨越三个层次的复杂分类法和多功能性超越了传统基准。SALAD Bench精心设计了一系列细致的问题，从标准查询到复杂的问题，包括攻击、防御修改和多项选择。为了有效管理固有的复杂性，我们引入了一种创新的评估器：基于LLM的MD Judge，用于QA配对，特别关注攻击增强的查询，确保无缝可靠的评估。上述组件将SALAD Bench从标准LLM安全评估扩展到LLM攻击和防御方法评估，确保了联合用途。我们的广泛实验揭示了LLM对新出现的威胁的抵御能力以及当代防御策略的有效性。数据和评估器开发在https://github.com/OpenSafetyLab/SALAD-BENCH。

1 引言

</

了解本专栏

超级会员免费看

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

在快速发展的大型语言模型（LLM）中，确保稳健的安全措施至关重要。为了满足这一关键需求，我们提出了SALAD Bench，这是一个专门用于评估LLM、攻击和防御方法的安全基准。SALAD Bench以其广度而闻名，其规模大、多样性丰富、跨越三个层次的复杂分类法和多功能性超越了传统基准。SALAD Bench精心设计了一系列细致的问题，从标准查询到复杂的问题，包括攻击、防御修改和多项选择。
复制链接

扫一扫