视频学习笔记 为什么要评测模型? 目前大模型评测的挑战: 确实现在大模型使用的数据都很多,避免测试集的污染确实蛮重要的。 如何评测 人类评价代价高。 模型评价:用目前比较好的模型(如ChatGPT4)评价A,B的效果。 长文本评测,大海捞针:把一个不相关的信息插在长文本里,在进行提问看模型能否回答。 根据上述问题,OpenCompass支持的功能: 作业 运行的好慢好慢。。。 为啥我这要6448秒,累了。 好啦测评结果如下: