一.能力评测的作用
二.大语言模型评测的挑战
挑战有全面性,评测成本,数据污染,鲁棒性
三.OpenCompass 2.0司南大模型评测体系开源历程
四.评测大模型
a.客观评测与主观评测
b.长文本评测![](https://img-blog.csdnimg.cn/direct/d0d1ad85840b40ed92b6d5500c99591e.png)
五.工具-基准-榜单 三位一体
a.CompassKit:大模型评测全栈工具链
OpenCompass有数据污染检查,更丰富的模型推理接入,长文本能力评测,中英文双语主观评测。
挑战有全面性,评测成本,数据污染,鲁棒性
OpenCompass有数据污染检查,更丰富的模型推理接入,长文本能力评测,中英文双语主观评测。