大模型评估脚本解析：选择题、代码生成与数学题目的评估方法-CSDN博客

本文链接：https://blog.csdn.net/qiaotl/article/details/135013824

如果从实现评估的纬度来分，可以将不同类型的评估分为三类，具体如下所示。更多理论的详细信息可以参见博客《如何对大模型进行评估上》。接下来就从第一种类型出发，看看评估脚本是如何实现的。这里分析的源代码是Qwen的评估脚本。

如何使用选择题类型数据集进行评估

下面的代码是Qwen大模型提供的evaluate_ceval.py评估脚本的部分代码，原始代码所有信息请查看官网。下面对脚本中部分重点代码进行了解释。以get_logits为例，输入的信息通过tokenizer进行编码处理后，输入大模型，得到原始输出outputs后，通过softmax函数，将得到的结果转换为概率分布数据，这样，在提取大模型的答案时，从4个选项中选取概率最大的作为选择题的答案，与真实答案进行对比即刻。

def load_models_tokenizer(args):
    #调用AutoTokenizer从预训练模型加载tokenizer，这里的checkpoint_path就是大模型名称或者存储的path
    tokenizer = AutoTokenizer.from_pretrained(
        args.checkpoint_path,
        pad_token='<|extra_0|>',
        eos_token='<|endoftext|>',
        padding_side='left',
        trust_remote_code=True
    )
    #加载大模型
    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        pad_token_id=tokenizer.pad_token_id,
        device_map="auto",
        trust_remote_code=True
    ).eval()
    #主要用于设置生成文本的参数
    model.generation_config = GenerationConfig.from_pretrained(
        args.checkpoint_path,
        pad_token_id=tokenizer.pad_token_id,
        trust_remote_code=True
    )
    return model, tokenizer

#从下载的csv文件原始数据中读取每一行的question，并进行文本的简要处理
def format_example(line, include_answer=True):
    example = "问题：" + line["question"]
    for choice in choices:
        example += f'\n{choice}. {line[f"{choice}"]}'

    if include_answer: