赛题说明
1、赛题背景
春节假期来临,专属贺岁时刻的精彩“文笔”展示环节,成为我们即将面对的一个“隐藏赛场”!如何生成一个能在春节帮你激发无限创意的模型,是本期赛题要解决的问题。
2、赛题内容
生成一个可制作贺岁文案内容的精调模型(限定使用ERNIE Speed,通过对模型精调使其保持原有能力的同时,具备准确理解并执行文案创作中创作长度相关指令的能力)。
a. 输入:包含创作长度要求的对文案创作的需求描述文本。(如:如何应对生成给领导的拜年文案;作为“I”人,如何在家庭群中发送讨长辈欢心的50字以内拜年语;如果你作为家长,如何辅助指导孩子完成“300字过年作文”的作业…)
b. 输出:严格符合长度要求且满足其他创作需要的创作内容。
3、参赛任务
- 通过在千帆大模型平台使用平台上的各种模型调优工具,结合相关数据,基于ERNIE-Speed调优生成符合赛题主题要求且效果优秀的模型。
- 补充说明:官方提供「贺岁文案」基础数据集,开发者需要在此基础上做延伸和扩充(模型训练最少需要100条数据)。
- 微调后的大模型需可访问在千帆大模型平台平台部署服务EndPoint、所有调优过程数据,超参设置和步骤描述,确保评审过程中必要的复现。
- 本次赛题必须使用百度智能云千帆大模型平台(千帆Modelbuilder)完成开发。
4、比赛时间
2024年2月8日 00:00:00 — 2024年2月21日 24:00:00
操作步骤
1.创建应用:基于ERNIE-Speed模型创建应用。
2.创建数据集:使用平台共享方式,基于Prompt-Response官方数据集创建个人数据集。
3.数据增强:基于ERNIE-Bot模型进行数据增强,设置指令生成依赖样本数为6,生成样本数为300,过滤相似度阈值为0.6。
4.发布数据集。
5.模型有监督精调(SFT):使用全量更新的方式进行训练,设置迭代轮次为20次,学习率0.00002,其余参数保持默认。
训练报告
6.发布模型。
7.公有云服务部署:选择按照服务调用量付费发布刚刚精调好的模型。
8.在线测试:在百度智能云控制台体验中心选择刚刚发布的服务进行在线测试,也可以基于python调用API进行测试。
9.模型评估:
- 自动规则打分
- 准确率:规则打分模式下,忽略停用词后,正确预测(标注与预测完全匹配)的样本数与总样本数的比例 ||
- F1分数:规则打分模式下,忽略停用词后,精确率和召回率的调和平均数
- ROUGE-1:ROUGE-1 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果按1-gram拆分后,计算出的召回率(n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段)。
- ROUGE-2:ROUGE-2 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果按2-gram拆分后,计算出的召回率(n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段)。
- ROUGE-L:ROUGE-L 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果按最长公共子序列(longest-gram)拆分后,计算出的召回率。
- BLEU-4:BLEU-4 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标,是将模型生成结果和标注结果分别按1-gram、2-gram、3-gram、4-gram拆分后,计算出的加权平均精确率(n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段)。
总体指标
自动规则打分指标 | 模型 |
---|---|
准确率 | 84 % |
F1分数 | 93.31 % |
ROUGE-1 | 92.48 % |
ROUGE-2 | 89.86 % |
ROUGE-L | 91.53 % |
BLEU-4 | 89.17 % |
- 自动裁判员打分
- 模型 ERNIE-Bot-4.0
自动裁判员打分指标 | 模型 |
---|---|
裁判员模型打分标准差 | 0.55 |
裁判员模型打分平均值 | 4.81 |
裁判员模型打分中位数 | 5 |
评估详情
二次微调
- 合并其他数据,重新构建高质量数据集,总计720条数据。
- SFT使用全量更新,重新进行超参设置并训练。
epoch | learning rate |
---|---|
10 | 0.00002 |
- 重新部署服务并测试。
- 训练结果如下。
Perplexity(困惑度)可以用来衡量大语言模型预测一个语言样本的能力,一个模型推理时的Perplexity数值越低,准确率也就越高,代表模型表现越好,反之亦然。
参考教程
【训练行业大模型】千帆ModelBuilder模型SFT精调教程
up主同济子豪兄的教程真的爆赞!