1.OpenCompass(试用时发现,官网报错不可使用)
OpenCompass是一个LLM评估平台,支持80多个数据集的各种模型(LLaMA、LLaMa2、ChatGLM2、ChatGPT、Claude等)。
使用文档:
https://zhuanlan.zhihu.com/p/669291064
可以在线评估:
支持不同的测试集,也可以新建自己的模型及数据集(数据集支撑私有不公开)但是个人试了一下,用自己的数据集,页面报错,执行不下去。
2. ANAH-V2(已排除不可用)
上面提到的工具使用的幻觉测试的基准: ANAH-V2 (旨在通过涉及幻觉的基准测试、检测和缓解的研究来减少 LLM 中的幻觉)
GitHub - open-compass/ANAH: [ACL 2024] ANAH & [NeurIPS 2024] ANAH-v2 & [ICLR 2025] Mask-DPO