讲课教师:曹茂松
视频地址:OpenCompass 大模型评测_哔哩哔哩_bilibili
一、为什么做大模型测评
1.1为什么做测评?
告知用户最好的模型是什么?
开发者指导模型的边界,指导能力提升
什么场景适合什么模型?
1.2如何做测评?
基座模型,对话模型
客观评测、
1.3主流大模型测评框架
二、OPenCompass工具介绍
2.1OPenCompass能力框架
2.2OPenCompass测评体系
2.3OPenCompass平台架构
2.4OPenCompass评测流水线设计![](https://img-blog.csdnimg.cn/direct/2a453c0216664422bd4c74237230f038.png)
2.5前沿垂直领域
垂直领域:法律、医疗
2.6大模型评测总结
体系完善,仍有需要改进的地方:
测试集混入训练数据,造成污染,结果不准确