大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼...

f03a7265620e287d54328b275d237c3d.gif

©作者 | 魏鸿鑫

单位 | 南方科技大学助理教授

研究方向 | 机器学习

05d858e2858e9d080256fc65c636bb2d.png

引言

为了全面探究当前大语言模型在中文环境下的内容风控能力,南方科技大学 “Data+AI” 数据智能实验室魏鸿鑫课题组联合北京滴普科技有限公司发布了中文内容安全评测数据集(ChineseSafe),并对当前主流的大语言模型进行了详细的评测,有望为众多科研机构与企业提供开源模型和 API 在中文内容安全能力上的参考。我们将尽快在 arxiv 上公开相关的 Technical report,以及更加详细的内容审查评测细节和结果(leaderboard见文尾)。

f4ad78de7b034b0df92e4ecacbb750c7.png

数据集构建

为构建符合中文互联网实际审核需求的评测基准,本工作构建的数据集从四个维度上评测大语言模型对中文内容的违规识别能力。其内容主要包括以下四个维度:

  1. 违法犯罪:结合中国法律法规要求,评估大语言模型辨别违法犯罪风险的能力,比如危害国家安全、传播淫秽色情等违法犯罪问题。

  2. 道德风险:评估大语言模型能否精确识别违反社会道德准则的请求,如偏见歧视、脏话辱骂等不符合道德伦理的问题。

  3. 个人安全和健康:评估大语言模型能否识别侵犯个人隐私及身心健康的潜在风险,如影响心理健康、泄露私人身份信息的问题。

  4. 变体词及谐音词:针对中文互联网社区常采用变体词或谐音词来规避风控的现象,本工作构建了一个变体词及谐音词的语料库,评估大模型能否识别包含变体词及谐音词的请求。下面是两个变体词/谐音词的示例:

b449b6110b0312985e876739e82bc6c1.png

▲ 违规中文内容示例-变体词/谐音词


数据集来源:本工作以 Sensitive-lexicon 敏感词汇库 [3] 为基础,从境内外互联网爬取中文数据,构建政治敏感、淫秽色情和变体与谐音违规词语料库。同时,我们采用了部分来自清华大学发布的中文内容风控数据集 SafetyBench [1] 的文本数据。

此外,本评测数据集从 pCLUE 数据集 [2] 中挑选了大量中文合规样本,从而构建类别平衡的数据集,全面评估大语言模型对中文内容的风控能力。较现有的其他中文内容风控评测(如 SafetyBench)相比,增加了政治敏感、淫秽色情变体与谐音词违规等内容,更加符合中文互联网社区中内容风险控制的实际审核需求。


c35fa6134a550ed6bb08f5cc51bf00a5.png

评估指标

本工作采用 Accuracy,Precision_Safe、Recall_Safe、Precision_ Unsafe、Recall_Unsafe 五种指标全面评估大语言模型对中文内容违规的审查能力。其中,Accuracy 表示模型整体的分类准确度,Precision_ Safe、Recall_Safe 分别表示大模型对合规内容的查准率和查全率,Precision_ Unsafe、Recall_Unsafe 表示模型对违规内容的查准率和查全率。具体计算方式如下:

f77146c68d398ad8f139f3d5599ff136.png

其中,TP 表示模型将违规内容分类为违规,FP 表示模型将合违规内容分类为违规,TN 表示模型将合规内容分类为合规,FN 表示模型将违规内容分类为合规。

fbd5a7f7d3a14e6f5ffe68bd0679353a.png

评测结果

我们通过上述数据集测试了众多主流大语言模型在中文内容的审查能力,分别采用单选题(困惑度)、生成式的方式评测模型对违规内容的辨别能力。评测结果显示:

  1. 基于生成式的评测方式较基于单选题(困惑度)的评测方式在总体上具有更强的辨别风险的能力;

  2. 开源模型中幻方发布的 DeepSeek-LLM-67B-Chat 取得了最为领先的综合风控识别效果;

  3. 意外的是谷歌发布的 Gemma-1.1-7B 模型在中文内容风控上效果表现突出;

  4. 在闭源 API 中 GPT-4o 的辨别能力最强,其精确率达到了惊人的 97.75% 但召回率很低(48.66%),代表其对中文违规内容审查的覆盖不够全面。

下面是详细结果:

基于生成式的评测结果:

3c9ef76e2f210c5d8c73897b82de461b.png

基于单选题(困惑度)的评测结果:

9497b3c326aaf10985a5f858f563c3a6.png

更多详细数据请参考 Leaderboard 链接:

https://huggingface.co/spaces/SUSTech/ChineseSafe-Benchmark

招聘:课题组长期招聘机器学习方向的访问学生、研究助理和博士后,同时接受 2025 年的博士申请,详细见:

南方科技大学魏鸿鑫老师招收机器学习方向访问学生/RA/博后

南方科技大学荆炳义教授招聘大语言模型方向博后/RA/实习生

outside_default.png

参考文献

outside_default.png

[1] SafetyBench数据集:

https://arxiv.org/abs/2304.10436
[2] pCLUE数据集:

https://www.cluebenchmarks.com/static/pclue.html

[3] Sensitive-lexicon敏感词汇库:

https://github.com/konsheng/Sensitive-lexicon

更多阅读

baa4096d5125a8ef0a020cb52d0f8291.png

0dfe971f19adc1c763ad19c6894b6120.png

f4af85092a926b105fc3d8f3b249080d.png

d18d573665b899b5d89fb7de0fc5020b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9c651cdf78534784a012b8aa028f664d.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

5c9cbcecd49390f9ecb746c91585c115.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值