- 博客(2)
- 收藏
- 关注
原创 language model evaluation harness个人使用指南
EleutherAI 的 LM Evaluation Harness 最初于 2020 年推出,目的是在海量不同基准(如 GSM8K、MMLU、HellaSwag、TruthfulQA 等)上,为各种模型提供一致且可重现的评测环境GitHub。
2025-05-21 14:47:01
1823
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1