千帆杯-贺岁灵感模型--Preliminary attempt

star_w10086

已于 2024-02-27 09:00:40 修改

阅读量2k

点赞数 50

分类专栏：大模型文章标签：语言模型百度云笔记

于 2024-02-20 11:41:09 首次发布

本文链接：https://blog.csdn.net/m0_53374676/article/details/136184214

版权

大模型专栏收录该内容

7 篇文章 1 订阅

订阅专栏

本文介绍了春节期间的一项技术挑战，要求参赛者利用ERNIESpeed模型进行贺岁文案的生成，通过数据增强、模型精调和自动评价指标（如ROUGE和BLEU）来优化模型，以满足不同长度和创作需求。比赛在2024年2月8日至21日进行，需在千帆大模型平台上完成。

摘要由CSDN通过智能技术生成

赛题说明

1、赛题背景

春节假期来临，专属贺岁时刻的精彩“文笔”展示环节，成为我们即将面对的一个“隐藏赛场”！如何生成一个能在春节帮你激发无限创意的模型，是本期赛题要解决的问题。

2、赛题内容

生成一个可制作贺岁文案内容的精调模型（限定使用ERNIE Speed，通过对模型精调使其保持原有能力的同时，具备准确理解并执行文案创作中创作长度相关指令的能力）。
a. 输入：包含创作长度要求的对文案创作的需求描述文本。（如：如何应对生成给领导的拜年文案；作为“I”人，如何在家庭群中发送讨长辈欢心的50字以内拜年语；如果你作为家长，如何辅助指导孩子完成“300字过年作文”的作业…）
b. 输出：严格符合长度要求且满足其他创作需要的创作内容。

3、参赛任务

通过在千帆大模型平台使用平台上的各种模型调优工具，结合相关数据，基于ERNIE-Speed调优生成符合赛题主题要求且效果优秀的模型。
- 补充说明：官方提供「贺岁文案」基础数据集，开发者需要在此基础上做延伸和扩充（模型训练最少需要100条数据）。
微调后的大模型需可访问在千帆大模型平台平台部署服务EndPoint、所有调优过程数据，超参设置和步骤描述，确保评审过程中必要的复现。
本次赛题必须使用百度智能云千帆大模型平台（千帆Modelbuilder）完成开发。

4、比赛时间

2024年2月8日 00:00:00 — 2024年2月21日 24:00:00

操作步骤

1.创建应用：基于ERNIE-Speed模型创建应用。
2.创建数据集：使用平台共享方式，基于Prompt-Response官方数据集创建个人数据集。
3.数据增强：基于ERNIE-Bot模型进行数据增强，设置指令生成依赖样本数为6，生成样本数为300，过滤相似度阈值为0.6。
4.发布数据集。
5.模型有监督精调(SFT)：使用全量更新的方式进行训练，设置迭代轮次为20次，学习率0.00002，其余参数保持默认。
训练报告

6.发布模型。
7.公有云服务部署：选择按照服务调用量付费发布刚刚精调好的模型。
8.在线测试：在百度智能云控制台体验中心选择刚刚发布的服务进行在线测试，也可以基于python调用API进行测试。

9.模型评估：

自动规则打分
- 准确率：规则打分模式下，忽略停用词后，正确预测(标注与预测完全匹配)的样本数与总样本数的比例 ||
- F1分数：规则打分模式下，忽略停用词后，精确率和召回率的调和平均数
- ROUGE-1：ROUGE-1 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标，是将模型生成结果和标注结果按1-gram拆分后，计算出的召回率（n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段）。
- ROUGE-2：ROUGE-2 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标，是将模型生成结果和标注结果按2-gram拆分后，计算出的召回率（n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段）。
- ROUGE-L：ROUGE-L 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标，是将模型生成结果和标注结果按最长公共子序列（longest-gram）拆分后，计算出的召回率。
- BLEU-4：BLEU-4 是NLP中机器翻译/⽂本摘要等生成类任务常⽤的评价指标，是将模型生成结果和标注结果分别按1-gram、2-gram、3-gram、4-gram拆分后，计算出的加权平均精确率（n-gram 指⼀个语句⾥⾯连续的n个单词组成的⽚段）。

总体指标

自动规则打分指标	模型
准确率	84 %
F1分数	93.31 %
ROUGE-1	92.48 %
ROUGE-2	89.86 %
ROUGE-L	91.53 %
BLEU-4	89.17 %

自动裁判员打分
- 模型 ERNIE-Bot-4.0

自动裁判员打分指标	模型
裁判员模型打分标准差	0.55
裁判员模型打分平均值	4.81
裁判员模型打分中位数	5

裁判员模型分数分布

评估详情

二次微调

合并其他数据，重新构建高质量数据集，总计720条数据。
SFT使用全量更新，重新进行超参设置并训练。

epoch	learning rate
10	0.00002

重新部署服务并测试。
训练结果如下。

Perplexity（困惑度）可以用来衡量大语言模型预测一个语言样本的能力，一个模型推理时的Perplexity数值越低，准确率也就越高，代表模型表现越好，反之亦然。

参考教程

【训练行业大模型】千帆ModelBuilder模型SFT精调教程
up主同济子豪兄的教程真的爆赞！

star_w10086

关注

50
点赞
踩
51

收藏

觉得还不错? 一键收藏
打赏
2
评论
千帆杯-贺岁灵感模型--Preliminary attempt

生成一个可制作贺岁文案内容的精调模型（限定使用ERNIE Speed，通过对模型精调使其保持原有能力的同时，具备准确理解并执行文案创作中创作长度相关指令的能力）。
复制链接

扫一扫