今天主要的任务是找到确定模型微调效果的验证方式,一个1B左右的模型可以全参数微调,可以用来验证微调数据量多少合适的数据集
今天遇到的问题
首先是下载问题
不论是下载模型权重,还是拉去github仓库 弄到两个服务器的共享文件夹都很慢
下次重复几次后就直接先下载到win上然后用winscp传过去
vscode看文件是真的难受 主要是远程插件不知道为啥使用不了 有的时候看个数据都要先传到win上才行
看什么时候能把pycharm重新装一下
下载的csv文件读取的时候还是遇到了编码的问题
如何查看csv文件的编码
其他方向
可能的方向 语音识别modelscope-funasr怎么拿验证集评估微调后的模型效果呢-阿里云开发者社区 (aliyun.com)
技术知识点Advanced RAG 04:重排序(Re-ranking)技术探讨 - 知乎 (zhihu.com)
用Dify构建本地知识库(上) - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI
知识图谱
验证方式 or 评价指标
首先是这篇文章的指标
生成式语言模型预训练阶段验证方式与微调阶段验证方式-CSDN博客
如何有效地评估待用于微调的样本质量 - 郑瀚Andrew - 博客园 (cnblogs.com)该文中引用Meta发布的《LIMA: Less Is More for Alignment》需约一万份样本便足以达成理想的微调成果
大模型怎么搞?一个案例教会你从数据准备到微调验证! - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI
该文中使用小红书数据来微调模型的风趣祝福语生成
数据3000条
解读大模型应用的可观测性 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI
还是在群里问了之后仔细查看了之后才发现llama_factory的教程里面有评估方式
LLaMA-Factory QuickStart - 知乎 (zhihu.com)
指标 | 含义 |
---|---|
BLEU-4 | BLEU(Bilingual Evaluation Understudy)是一种常用的用于评估机器翻译质量的指标。BLEU-4 表示四元语法 BLEU 分数,它衡量模型生成文本与参考文本之间的 n-gram 匹配程度,其中 n=4。值越高表示生成的文本与参考文本越相似,最大值为 100。 |
predict_rouge-1 和 predict_rouge-2 | ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估自动摘要和文本生成模型性能的指标。ROUGE-1 表示一元 ROUGE 分数,ROUGE-2 表示二元 ROUGE 分数,分别衡量模型生成文本与参考文本之间的单个词和双词序列的匹配程度。值越高表示生成的文本与参考文本越相似,最大值为 100。 |
predict_rouge-l | ROUGE-L 衡量模型生成文本与参考文本之间最长公共子序列(Longest Common Subsequence)的匹配程度。值越高表示生成的文本与参考文本越相似,最大值为 100。 |
predict_runtime | 预测运行时间,表示模型生成一批样本所花费的总时间。单位通常为秒。 |
predict_samples_per_second | 每秒生成的样本数量,表示模型每秒钟能够生成的样本数量。通常用于评估模型的推理速度。 |
predict_steps_per_second | 每秒执行的步骤数量,表示模型每秒钟能够执行的步骤数量。对于生成模型,一般指的是每秒钟执行生成操作的次数。 |
训练数据选择
小红书风趣祝福语生成 3000条
https://huggingface.co/datasets/sanbu/tianji-wishes-chinese/blob/main/tianji-wishes-chinese-v0.1.
json
想了下 这个数据的回答基本很短 公司的问答对 回答基本很长 所以先放着
想到了之前看的医疗模型的基座
所以就打算先弄一下这个
Toyhom/Chinese-medical-dialogue-data: Chinese medical dialogue data 中文医疗对话数据集 (github.com)
训练数据预处理
首先是每次都记不到python代码的json格式转换 从一种含有某几个标签的 转换为其他item列表的
模型基座
教科书级数据is all you need:1.3B小模型逆袭大模型的秘密 | 机器之心 (jiqizhixin.com)
还是选了llama_factory支持的qwen1.5-0.5B
倒是下载模型经常有问题