书生·浦语大模型实战营第六课笔记

本文介绍了OpenCompass开源评测框架,用于评估对话模型的性能,包括通用能力和特色功能。作者分享了使用Run.Py中的参数配置和实操心得,指出版本差异导致的错误以及解决方法。
摘要由CSDN通过智能技术生成

多维度大模型评测
作用:方便用户和开发者了解模型的特色、实际能力及目前的缺陷
方法:根据基座模型和指令微调后的对话模型来设计不同的方案。可做客观评测和主观人类或其他模型打分。

OpenCompass开源评测结构
可测试能力:通用能力(学科、语言、知识、理解、推理和安全)及特色能力(长文本、代码、工具及知识增强)
测评流程:配置 -> 推理 -> 评估 -> 可视化

实操心得
OpenCompass的主要流程就包含在`Run.Py`里面,可以利用--来指定一些args,也可以将所有的args写成配置文件来执行。
其中--reuse可以支持断点继续续存,分片可以支持多个模型同时推理
主观测评需要应用其他模型,比如GPT4-Turbo作为Judge模型

预测为空错误

  File "/root/opencompass/opencompass/openicl/icl_inferencer/icl_gen_inferencer.py", line 180, in get_generation_prompt_list_from_retriever_indices

    while len(ice_idx) > 0 and prompt_token_num > max_seq_len:

TypeError: '>' not supported between instances of 'NoneType' and 'int'

这个错误看似是token设置的问题,但实际上是Opencompass版本的问题。从gitee上克隆的和从git上克隆的版本完全不一样:

改用git版本就一切okay了,花了4个小时debug :(

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值