TRUSTVIS: A Multi-Dimensional Trustworthiness Evaluation Framework for Large Language Models

UnknownBody_2

于 2025-12-18 09:15:00 发布

阅读量117

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UnknownBody_2/article/details/155846244

LLM Daily 同时被 2 个专栏收录

70 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

3 篇文章

订阅专栏

一、文章主要内容总结

本文针对大型语言模型（LLMs）在高风险领域应用中凸显的可信度问题（尤其是安全性与鲁棒性），提出了一种自动化评估框架TRUSTVIS。该框架核心是通过“安全性”与“鲁棒性”两个关联维度，实现对LLM可信度的全面评估，具体内容包括：

核心目标：解决现有评估方法孤立看待可信度维度（如将安全性与鲁棒性割裂）、方法透明度不足、易用性差等问题，搭建技术评估与实际诊断之间的桥梁。
框架架构：
- 后端：包含四个关键阶段（模型与数据集上传→生成prompt-响应（P&R）对→基于MLCommons分类法分类→通过多模型集成（LlamaGuard、LlamaGuard2、微调Longformer）与多数投票机制评估安全性，采用AutoDAN方法生成对抗性后缀评估鲁棒性）。
- 前端：提供交互式可视化界面，支持从总览仪表盘、分类法细分分析到问题响应示例的分层探索，无需编码即可操作。
评估实验：对Vicuna-7b、Llama2-7b、GPT-3.5三款模型进行测试，采用DNA、ALERT数据集评估安全性，AutoDAN生成对抗性样本评估鲁棒性，验证了框架在识别模型分类级漏洞（如GPT-3.5在S11：性内容的安全性短板、模型在S1：暴力犯罪类别的鲁棒性缺陷）上的有效性。
核心价值：支持自定义数据集上传、自动化数据预处理，提供动态可视化报告，同时开源框架，兼顾科研严谨性与工业实用性。

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。