多维度大模型评测
作用:方便用户和开发者了解模型的特色、实际能力及目前的缺陷
方法:根据基座模型和指令微调后的对话模型来设计不同的方案。可做客观评测和主观人类或其他模型打分。
OpenCompass开源评测结构
可测试能力:通用能力(学科、语言、知识、理解、推理和安全)及特色能力(长文本、代码、工具及知识增强)
测评流程:配置 -> 推理 -> 评估 -> 可视化
实操心得
OpenCompass的主要流程就包含在`Run.Py`里面,可以利用--来指定一些args,也可以将所有的args写成配置文件来执行。
其中--reuse可以支持断点继续续存,分片可以支持多个模型同时推理
主观测评需要应用其他模型,比如GPT4-Turbo作为Judge模型
预测为空错误
File "/root/opencompass/opencompass/openicl/icl_inferencer/icl_gen_inferencer.py", line 180, in get_generation_prompt_list_from_retriever_indices
while len(ice_idx) > 0 and prompt_token_num > max_seq_len:
TypeError: '>' not supported between instances of 'NoneType' and 'int'
这个错误看似是token设置的问题,但实际上是Opencompass版本的问题。从gitee上克隆的和从git上克隆的版本完全不一样:
改用git版本就一切okay了,花了4个小时debug :(