大模型微调
文章平均质量分 74
数据猴赛雷
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI大模型微调教程7
State-Value Functions:在策略给定的情况下,评估一个状态的价值。2)监督学些,<input, output>数据是独立的,强化学习数据间是有关联的。score大于就是正确的,score小于就是错误的,而且大的程度越大越好。Action-value Functions:在某个状态下,某个动作的价值。1)监督学习,<input, output>提前准备好的,强化学习没有。Agent的目标定义:长期的Reward最大化。对于随机变量,最常用的方法就是取期望值。让Agent到达高价值点位。原创 2025-10-07 23:44:37 · 345 阅读 · 0 评论 -
AI大模型微调教程6
safe softmax:防止某个x过大导致float类型的计算溢出,溢出后会直接返回null。如果只激活1个,那么和之前的性能是等价的。目前的O不是我们想要的值,因为权重只有部分的值,不全,所以最后得到的O2也是不正确的。训练大模型的时候,没法在每张GPU上把完整的模型存下来,这个是有问题的。解决的问题:计算复杂度下降 + Memory复杂度下降,且是精确的计算。我们不需要计算出完整的softmax的值,否则还是O(n2)的复杂度。每次根据过去得到的m(x)和最新的x,更新m(x)的值即可。原创 2025-10-04 23:13:44 · 430 阅读 · 0 评论 -
AI大模型微调教程5
量化的方法原创 2025-09-29 17:54:32 · 368 阅读 · 0 评论 -
AI大模型微调教程4
Alpaca、AdaLoRA、QLoRA原创 2025-09-28 14:42:39 · 387 阅读 · 0 评论 -
AI大模型微调教程3
微调定制化和通用的方法原创 2025-09-26 16:54:24 · 1121 阅读 · 0 评论 -
AI大模型微调教程2
某一次最好的不一定是全局最好的。假如y2不对,那么可以导致后续的全部出错。Subword方法可以有效解决Out Of Vocabulary的问题。不需要拟合0-1这种极端的分布,而是稍微平缓一点的分布。新方式下每个Block太大不能全部装进GPU SRAM。观看annotated-transformer源码。每次保留topN个,不会导致指数级增长。corpus=语料库。原创 2025-09-24 23:48:51 · 396 阅读 · 0 评论 -
AI大模型微调教程1
介绍下模型发展、transformer的架构原创 2025-09-24 09:57:51 · 714 阅读 · 0 评论
分享