一、文章主要内容总结
本文针对大型语言模型(LLMs)在高风险领域应用中凸显的可信度问题(尤其是安全性与鲁棒性),提出了一种自动化评估框架TRUSTVIS。该框架核心是通过“安全性”与“鲁棒性”两个关联维度,实现对LLM可信度的全面评估,具体内容包括:
- 核心目标:解决现有评估方法孤立看待可信度维度(如将安全性与鲁棒性割裂)、方法透明度不足、易用性差等问题,搭建技术评估与实际诊断之间的桥梁。
- 框架架构:
- 后端:包含四个关键阶段(模型与数据集上传→生成prompt-响应(P&R)对→基于MLCommons分类法分类→通过多模型集成(LlamaGuard、LlamaGuard2、微调Longformer)与多数投票机制评估安全性,采用AutoDAN方法生成对抗性后缀评估鲁棒性)。
- 前端:提供交互式可视化界面,支持从总览仪表盘、分类法细分分析到问题响应示例的分层探索,无需编码即可操作。
- 评估实验:对Vicuna-7b、Llama2-7b、GPT-3.5三款模型进行测试,采用DNA、ALERT数据集评估安全性,AutoDAN生成对抗性样本评估鲁棒性,验证了框架在识别模型分类级漏洞(如GPT-3.5在S11:性内容的安全性短板、模型在S1:暴力犯罪类别的鲁棒性缺陷)上的有效性。
- 核心价值:支持自定义数据集上传、自动化数据预处理,提供动态可视化报告,同时开源框架,兼顾科研严谨性与工业实用性。

订阅专栏 解锁全文
1686

被折叠的 条评论
为什么被折叠?



