2024.5.28工作记录

今天主要的任务是找到确定模型微调效果的验证方式,一个1B左右的模型可以全参数微调,可以用来验证微调数据量多少合适的数据集

今天遇到的问题

首先是下载问题

不论是下载模型权重,还是拉去github仓库 弄到两个服务器的共享文件夹都很慢

下次重复几次后就直接先下载到win上然后用winscp传过去

vscode看文件是真的难受 主要是远程插件不知道为啥使用不了 有的时候看个数据都要先传到win上才行

看什么时候能把pycharm重新装一下

下载的csv文件读取的时候还是遇到了编码的问题 

如何查看csv文件的编码

其他方向

可能的方向 语音识别modelscope-funasr怎么拿验证集评估微调后的模型效果呢-阿里云开发者社区 (aliyun.com)

技术知识点Advanced RAG 04:重排序(Re-ranking)技术探讨 - 知乎 (zhihu.com)

用Dify构建本地知识库(上) - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

知识图谱 

xionghonglin/QASystemOnMedicalKG: A tutorial and implement of disease centered Medical knowledge graph and qa system based on it。知识图谱构建,自动问答,基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。 (github.com)

验证方式 or 评价指标

首先是这篇文章的指标

生成式语言模型预训练阶段验证方式与微调阶段验证方式-CSDN博客

如何有效地评估待用于微调的样本质量 - 郑瀚Andrew - 博客园 (cnblogs.com)该文中引用Meta发布的《LIMA: Less Is More for Alignment》需约一万份样本便足以达成理想的微调成果



大模型怎么搞?一个案例教会你从数据准备到微调验证! - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

该文中使用小红书数据来微调模型的风趣祝福语生成

数据地址https://huggingface.co/datasets/sanbu/tianji-wishes-chinese/blob/main/tianji-wishes-chinese-v0.1.json

数据3000条 

   解读大模型应用的可观测性 - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

还是在群里问了之后仔细查看了之后才发现llama_factory的教程里面有评估方式

LLaMA-Factory QuickStart - 知乎 (zhihu.com)

指标含义
BLEU-4BLEU(Bilingual Evaluation Understudy)是一种常用的用于评估机器翻译质量的指标。BLEU-4 表示四元语法 BLEU 分数,它衡量模型生成文本与参考文本之间的 n-gram 匹配程度,其中 n=4。值越高表示生成的文本与参考文本越相似,最大值为 100。
predict_rouge-1 和 predict_rouge-2ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估自动摘要和文本生成模型性能的指标。ROUGE-1 表示一元 ROUGE 分数,ROUGE-2 表示二元 ROUGE 分数,分别衡量模型生成文本与参考文本之间的单个词和双词序列的匹配程度。值越高表示生成的文本与参考文本越相似,最大值为 100。
predict_rouge-lROUGE-L 衡量模型生成文本与参考文本之间最长公共子序列(Longest Common Subsequence)的匹配程度。值越高表示生成的文本与参考文本越相似,最大值为 100。
predict_runtime预测运行时间,表示模型生成一批样本所花费的总时间。单位通常为秒。
predict_samples_per_second每秒生成的样本数量,表示模型每秒钟能够生成的样本数量。通常用于评估模型的推理速度。
predict_steps_per_second每秒执行的步骤数量,表示模型每秒钟能够执行的步骤数量。对于生成模型,一般指的是每秒钟执行生成操作的次数。

 训练数据选择

小红书风趣祝福语生成 3000条

https://huggingface.co/datasets/sanbu/tianji-wishes-chinese/blob/main/tianji-wishes-chinese-v0.1.
json

想了下 这个数据的回答基本很短 公司的问答对 回答基本很长 所以先放着

想到了之前看的医疗模型的基座

所以就打算先弄一下这个

Toyhom/Chinese-medical-dialogue-data: Chinese medical dialogue data 中文医疗对话数据集 (github.com)

训练数据预处理

首先是每次都记不到python代码的json格式转换 从一种含有某几个标签的 转换为其他item列表的

模型基座

教科书级数据is all you need:1.3B小模型逆袭大模型的秘密 | 机器之心 (jiqizhixin.com)

HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 (github.com)

还是选了llama_factory支持的qwen1.5-0.5B

倒是下载模型经常有问题

微调参数选择

LoRA和QLoRA微调语言大模型:数百次实验后的见解 - 知乎 (zhihu.com)

  • 13
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值