a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety

最新推荐文章于 2025-06-13 10:17:23 发布

UnknownBody

最新推荐文章于 2025-06-13 10:17:23 发布

阅读量141

点赞数 2

分类专栏： LLM Daily Survey Paper 文章标签：语言模型人工智能安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/140750521

版权

LLM Daily 同时被 2 个专栏收录

1273 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

262 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《SafetyPrompts: a Systematic Review of Open Datasets for
Evaluating and Improving Large Language Model Safety》的翻译。

SafetyPrompts：用于评估和改进大型语言模型安全性的开放数据集的系统综述

摘要
1 引言
2 数据集审查方法
3 数据集审查结果
4 模型发布出版物中使用的开放LLM安全数据集
5 用于流行基准测试的开放LLM安全数据集
6 讨论
7 结论

摘要

在过去的两年里，人们对大型语言模型（LLM）安全性的担忧迅速增长。研究人员和从业者通过引入大量新的数据集来评估和提高LLM安全性，从而解决了这些问题。然而，这项工作的大部分是并行进行的，并且考虑到了非常不同的目标，从缓解偏见和有毒成分产生的短期风险到评估长期灾难性风险的可能性。这使得研究人员和从业者很难为给定的用例找到最相关的数据集，并确定未来工作可能填补的数据集覆盖率差距。为了解决这些问题，我们对开放数据集进行了首次系统审查，以评估和提高LLM的安全性。我们回顾了102个数据集，这些数据集是我们在几个月的时间里通过迭代和社区驱动的过程确定的。我们强调了模式和趋势，例如完全合成数据集的趋势，以及数据集覆盖范围的差距，例如明显缺乏非英语数据集。我们还研究了LLM安全数据集在实践中的使用情况——在LLM发布出版物和流行的LLM基准测试中——发现当前的评估实践非常特殊，只使用了一小部分可用数据集。我们的贡献基于SafetyPrompts.com，这是一个LLM安全开放数据集的动态目录，我们承诺随着LLM安全领域的发展不断更新。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。