自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 大语言模型训练“参数”到底改怎么调???

就像你一次处理了8个样本(大批处理大小),但实际上每次只用4个样本的显存。就像分期付款一样,让你显存不够也能享受大批处理的效果。第六个:loraplus_lr_ratio这个是今年出来的一个新的训练算法,旨在传统lora训练方式下。lora+提高了性能(1% ‑ 2% 的改进)和微调速度(高达 ~ 2 倍加速),而计算成本与 LoRA 相同。具体的就不展开说了,只知道它可以大幅缩短模型所训练的时间,同样的步数下拟合的会更加的快。我建议可以设置为8或者16。

2024-07-19 23:02:33 918

原创 给我一分钟,教你推理+训练GLM4全系列模型

我们打开output文件夹,这里面的所有文件都是你刚刚保存的模型,后面的数字就是不同步数下保存的模型。然后save_steps的意思是模型多少步会保存一次的意思,这里我输入的是50 也就是说,模型每50步的时候,会保存一次。最后,可能还有同学要问了,我想要把合并好的模型部署成API,然后调用。由于其中的训练方式有很多,所以我这里就选择其中一种来介绍,其余的内容可以自行操作,里面的教程也十分的简单。这实际上是我提前放进去的文件,方便一些懒得做数据集的人可以直接使用,当然,你也可以全删除,替换成自己的。

2024-07-15 11:41:59 1104

原创 如何训练好一个LLM大语言模型?

目前,深度学习的影响非常广泛。AI绘画、AI声音克隆、AI大语言模型等等等等。市面上很多资料文章和视频都非常多。以至于让新手甚至在几个小时就可以掌握。但是,再往上呢?在学习深度学习的这个领域。从0到1并不难。只需要会部署项目,能跑通模型就算入门了。但是想要从1跨越到2。甚至更高。所需要花费的心血可就是另一个层次了。其中更多的是那种捉摸不透的经验主义以及大大小小的信息差。就好比想要训练一个公司的AI客服。看了网上很多的教学文章,不想用RAG和外部知识库等等的功能来搭建。而是想要用大模型训练来训练微调。在成

2024-07-09 07:00:21 772 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除