1. 任务学习目标
- 学习大模型微调的基本概念
- 学习微调数据处理方法
2. 任务赛事要求
- 任务:通过微调大模型生成高考中英文阅读模拟题及答案
- 平台:
3. 学习步骤详细描述
- STEP1:报名赛事
- 步骤描述:注册并登录讯飞开放平台,完成个人认证并参与比赛。
- 步骤比喻:夏令营基于一个讯飞比赛进行。
- STPE2:运行Baseline
- 步骤描述:
- Baseline是机器学习中的一个基准模型,它提供了一个性能比较的起点。
- 访问百度AI Studio提供的项目链接,运行预设的数据处理和微调测试代码。
- 完成代码运行后,下载
output.jsonl
文件,这是模型微调所需的关键数据集,包含了原始文本和问题答案对。
- 步骤比喻:使用百度AI Studio提供的代码处理数据,生成数据作为训练集,以推向下一步在讯飞AI平台中进行训练。
- 步骤描述:
- STEP3:模型微调
- 步骤描述:
- 在预训练模型(Spark_13b)的基础上,针对特定任务进行再训练,以提高模型在该任务上的表现。
- 在讯飞大模型定制训练平台上,上传STEP2的
output.jsonl
文件作为训练数据。 - 选择适当的模型参数和配置,开始模型训练。训练时间可能因模型大小和数据量而有所不同。
- 需要记录自己训练模型的相关数据,包含:
SPARKAI_APP_ID
、SPARKAI_API_SECRET
、SPARKAI_API_KEY等。
- 步骤比喻:类似于根据数据集的要求,使用预训练模型训练出符合自己要求的大模型。
- 步骤描述:
- STEP4:模型测试
- 步骤描述:
- 将
SPARKAI_APP_ID
、SPARKAI_API_SECRET
、SPARKAI_API_KEY等数据复制到百度AI Studio模型里。
- 运行测试代码,观察模型输出,确保模型能够正确理解文本并生成准确的答案。
- 将
- 步骤比喻:测试自己使用讯飞训练的模型是否能够正确完成任务。
- 步骤描述:
- STEP5:提交文件、获得分数
- 步骤描述:将微调后的大模型的resourceid提交到讯飞赛事平台上,获得分数。
- 步骤比喻:实际参与比赛,提交自己的大模型结果,并得到训练的大模型分数。