基本映像
基座模型基本和我的映像差不多,chat我以为偏向于更多的rlhf呢。instruct才是增加工具能力之类的。整个教程走完,发现opencompass的功能确实比较全面。测试数据集应该网上还可以找到更多。
面向GPU的环境安装
/root/share/install_conda_env_internlm_base.sh opencompass
conda activate opencompass
git clone https://github.com/open-compass/opencompass
cd opencompass
pip install -r requirements.txt
pip install -e .
数据准备,查看支持的数据集和模型
过程略
config内容其实不长,可以稍微看看。
启动评测
第一次运行不成功,返回发现有注释安装指南:
https://opencompass.readthedocs.io/zh-cn/latest/get_started/installation.html
还不行,看群里估计要加:
export MKL_SERVICE_FORCE_INTEL=1
export MKL_THREADING_LAYER=GNU
果然👌了。
自定义数据集客主观评测:量身定制,慧眼识珠
客观评测比较好说,主观评测用人来评成本很高,还好llm时代有替代选择:
JudgeLLM协助做主观评测。
数据污染评估:禁止作弊,诚信考试
大海捞针:星辰藏海深,字海寻珠难
给出了几个测试数据集,这个需求目前比较热