微调数据构造实验
2 微调实战
采用弱智吧数据进行训练~
2.1 概述
2.1.1 场景需求
基于 InternLM2-chat-1.8B 模型,用弱智吧中的数据进行微调,训练一个不弱智的模型
2.2 数据准备
2.2.1 数据构造
首先介绍下如何构造高质量的SFT数据:
- 数据选择和采集
- 数据选择和采集
- 数据标注
- 数据增强
- 数据划分
2.2.2 真实数据预览
2.2.3 将数据转为 XTuner 的数据格式
2.2.4 划分训练集和测试集
2.3 开始自定义微调
2.3.1 准备配置文件
2.3.2 启动训练