2024.5.28工作记录

Tankoldbang

已于 2024-06-10 17:29:00 修改

阅读量873

点赞数 13

文章标签： python langchain 语言模型

于 2024-05-29 09:06:27 首次发布

本文链接：https://blog.csdn.net/Tankoldbang/article/details/139255937

版权

今天主要的任务是找到确定模型微调效果的验证方式，一个1B左右的模型可以全参数微调，可以用来验证微调数据量多少合适的数据集

今天遇到的问题

首先是下载问题

不论是下载模型权重，还是拉去github仓库弄到两个服务器的共享文件夹都很慢

下次重复几次后就直接先下载到win上然后用winscp传过去

vscode看文件是真的难受主要是远程插件不知道为啥使用不了有的时候看个数据都要先传到win上才行

看什么时候能把pycharm重新装一下

下载的csv文件读取的时候还是遇到了编码的问题

如何查看csv文件的编码

知识图谱

首先是这篇文章的指标

如何有效地评估待用于微调的样本质量 - 郑瀚Andrew - 博客园 (cnblogs.com)该文中引用Meta发布的《LIMA: Less Is More for Alignment》需约一万份样本便足以达成理想的微调成果

该文中使用小红书数据来微调模型的风趣祝福语生成

数据3000条

还是在群里问了之后仔细查看了之后才发现llama_factory的教程里面有评估方式

指标	含义
BLEU-4	BLEU（Bilingual Evaluation Understudy）是一种常用的用于评估机器翻译质量的指标。BLEU-4 表示四元语法 BLEU 分数，它衡量模型生成文本与参考文本之间的 n-gram 匹配程度，其中 n=4。值越高表示生成的文本与参考文本越相似，最大值为 100。
predict_rouge-1 和 predict_rouge-2	ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一种用于评估自动摘要和文本生成模型性能的指标。ROUGE-1 表示一元 ROUGE 分数，ROUGE-2 表示二元 ROUGE 分数，分别衡量模型生成文本与参考文本之间的单个词和双词序列的匹配程度。值越高表示生成的文本与参考文本越相似，最大值为 100。
predict_rouge-l	ROUGE-L 衡量模型生成文本与参考文本之间最长公共子序列（Longest Common Subsequence）的匹配程度。值越高表示生成的文本与参考文本越相似，最大值为 100。
predict_runtime	预测运行时间，表示模型生成一批样本所花费的总时间。单位通常为秒。
predict_samples_per_second	每秒生成的样本数量，表示模型每秒钟能够生成的样本数量。通常用于评估模型的推理速度。
predict_steps_per_second	每秒执行的步骤数量，表示模型每秒钟能够执行的步骤数量。对于生成模型，一般指的是每秒钟执行生成操作的次数。