第二届世界科学智能大赛逻辑推理赛道：复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营＜二＞

本文链接：https://blog.csdn.net/qq415200973/article/details/140801325

第二届世界科学智能大赛逻辑推理赛道：复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营-CSDN博客

这里在上一篇的基础上，已经充分理解了一遍baseline的流程，并修复了一些后处理的问题，包括答案抽取，中间结果记录与重试，提问合并，问题检查等等。本篇笔记主要探索模型的效果上限，方便在后续模型调优提供案例和额外数据。

在未改变prompt的情况下，尝试对比了一些开源模型的效果：

这里整理了一下复赛的一些要求：

本赛道复赛线上推理与评测时间限制为3个小时，镜像运行服务器为单卡V100（32G显存版本）
复赛环境网络配置：复赛采用镜像方式进行评测，容器中无可用网络，无法进行下载安装，外部API调用等操作。请选手提前将所需软件环境，数据，模型等装进镜像，不要在镜像中写入包含网络操作的代码，否则镜像运行会卡死或中断
为了不影响最后一周镜像的正常提交和运行，请将提交的训练代码包整体控制在50G以内。50G以内一般的模型限制在20b之内，例如书生·浦语2-20B，模型文件为40G。Qwen1.5-14b，模型文件为30G。推荐模型使用20b以下。
特别说明：参赛选手可以使用开源数据，若使用了开源数据，需要在代码审核阶段提供数据来源以及相关说明。

单独从模型大小来看：

50G的存储空间支持：20B模型（fp16），40B模型(int8)，80B模型（int4）

32G的显存推理支持：60B（int4），30B（int8），15B（fp16）

32G的显存Lora finetune训练支持：15B（fp16）

接下来全力投入到训练和prompt优化过程，争取把15B以下左右的模型调到0.8的效果。