一、介绍
HHEM 排行榜评估LLM在总结文档时引入幻觉的频率,使用 HHEM-2.1(商业版) 幻觉检测模型。
排行榜地址: https://huggingface.co/spaces/vectara/leaderboard
github地址: https://github.com/vectara/hallucination-leaderboard
HHEM-2.1 开源版本(HHEM-2.1-Open): https://huggingface.co/vectara/hallucination_evaluation_model
二、使用
排行榜使用的测试数据集地址: https://huggingface.co/datasets/vectara/leaderboard_results,其中 source 为问题,summary 为各模型的回答。对于单个模型,使用 1006 个问题用于测试。
原始数据集: 📎leaderboard_summaries.csv, 使用脚本抽取 1006 个测试问题,并保存成 jsonl 格式文件,用于后续使用模型获取答案。jsonl 文件包含字段 source,model_answer(为空),脚本如下:📎抽取数据集.py,抽取完成后的文件如下: