大模型幻觉率测评工具

1.OpenCompass(试用时发现,官网报错不可使用)

OpenCompass是一个LLM评估平台,支持80多个数据集的各种模型(LLaMA、LLaMa2、ChatGLM2、ChatGPT、Claude等)。

OpenCompass司南 - 评测榜单

使用文档:

https://zhuanlan.zhihu.com/p/669291064

可以在线评估:

支持不同的测试集,也可以新建自己的模型及数据集(数据集支撑私有不公开)但是个人试了一下,用自己的数据集,页面报错,执行不下去。

2. ANAH-V2(已排除不可用)

上面提到的工具使用的幻觉测试的基准: ANAH-V2 (旨在通过涉及幻觉的基准测试、检测和缓解的研究来减少 LLM 中的幻觉)

GitHub - open-compass/ANAH: [ACL 2024] ANAH & [NeurIPS 2024] ANAH-v2 & [ICLR 2025] Mask-DPO

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值