一. 平台调研
阿里云与魔搭搭配,可一键部署模型
二. 数据集调研
我们的模型需要达到能生成小学数学题库的水准,因此我们需要收集小学数学题相关的数据集来训练微调大模型。以下是在网络上收集到的小学数学题集相关的几个数据集:
- HuggingFace: primary-school-math-question
- 是英文数据集;微调模型的数据集;分成了数学和非数学的标签;似乎只有问题没有答案
- BelleGroup/school_math_0.25M · Datasets at Hugging Face
- Chat-GPT生成的中文题,有详细解析;包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程;此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误
- GitHub - openai/grade-school-math
- 英文题,有详细解析;是人工数据集,应该不大担忧出错的问题;步骤都是2-8步,计算只涉及了基础的加减乘除运算
- math_dataset · Datasets at Hugging Face
- 全是计算题
- GitHub - Chenny0808/ape210k: This is the repository of the Ape210K dataset and baseline models.
- 解析只是把计算式列出来了;小学水平的数学题;21w条,提供问题、最优算式和解答
最后通过小组讨论筛选,选择ape210k数据集来作为我们的训练数据集。该数据集数量大,能保证正确性并且有相关解析提供,相对收集到的其他数据集来说更能满足我们的要求。