大模型
文章平均质量分 61
R.Jamin Cheng
目前主要在税务这块进行数据分析和DBA开发工作。所发表文章参看一些博文或是书籍亦或是一些网站,所摘录的比较。本是收藏在草稿里面的,有人说还是发表吧,这样可以一起学习,进步更快。如有侵犯权益的,请联系我删除吧!
展开
-
关于cl100k_base.tiktoken报错问题
cl100k_base.tiktoken报错问题原创 2024-10-08 16:00:17 · 85 阅读 · 0 评论 -
GLM4微调代码解析
这段代码是GLM4内置好的微调代码,finetune.py文件。其构建一个微调模型的完整过程,主要用于机器学习和自然语言处理任务。可根据自己的具体需求替换一些字段内容,以适应项目环境和数据。原创 2024-07-30 01:18:25 · 490 阅读 · 0 评论 -
glm4-9b的lora.yaml文件说明
如果设置 max_steps: 3000,即使有多个epoch,每个epoch包含1000步,训练也将在达到第3000步时停止,而不再继续。:如果训练过程设定了 max_steps 为 3000,那么在训练过程中,将分别在第500步、第1000步、第1500步、第2000步、第2500步和第3000步保存检查点。这在对话生成任务中尤其常见。:如果有两个GPU,且 per_device_eval_batch_size 设置为 4,那么每次评估时每个GPU处理4个样本,总共处理8个样本。原创 2024-07-29 19:00:00 · 1434 阅读 · 1 评论