大模型论文
文章平均质量分 74
Maker~
这个作者很懒,什么都没留下…
展开
-
14-LLM Pruning and Distillation in Practice: The Minitron Approach
我们将llama3 8B和Mistral NeMo12B的大模型压缩到了4B和8B.我们探索了两种不同的修剪策略(1)深度修剪指的是从模型的深度维度进行剪枝,即减少模型的层数。这种方法通过去除不重要的层,减少模型的整体计算量和复杂度。(2)联合隐藏层/注意力/MLP(宽度)剪枝在这个策略中,模型的隐藏层、注意力头、以及MLP层的宽度(通道数或神经元数)被一起剪枝。这种方法通过减少这些组件的维度来压缩模型。我们发现,当没有访问原始数据时,对教师模型在蒸馏数据集上进行轻微的微调是有益的。原创 2024-09-08 14:28:34 · 959 阅读 · 0 评论 -
13、R-Adapter
pass,后续从github更新。原创 2024-09-08 12:50:13 · 126 阅读 · 0 评论 -
11、QLora
QLora是一种非常有效的微调办法,可以对具有大规模模型参数的模型进行微调。例如它可以用来微调一个具有 650 亿个参数的大型模型,更重要的是,QLORA 能让这个巨大的模型在单个 48GB 的 GPU 上完成微调,还能保持与 16 位全精度微调相同的性能。最好的模型被命名为Guanaco,可以在单个GPU上用很短的时间完成训练,同时表现非常好。原创 2024-09-04 20:34:17 · 1074 阅读 · 0 评论 -
9、微调技术——Lora(论文阅读)
假设原本w为100x100大小,则A大小为100xK,B为Kx100,假设W中有用信息多,我们就可以让k大一点,否则就小一点。假设k=2,则AB中各有200个参数,一共400个,远远比W参数少得多。(1)对于改动的量,可能里面包含许多有限的有用值。比如100亿的参数,可能只有50亿有用,别的都是重复或者可根据已知来推导的。为了减少训练量,我们不会更新所有参数。假设预训练模型的参数矩阵为W,我们可以将其写成W=A*B的形式。(2)有时我们希望模型某一方面的能力更突出,所以只需要训练部分参数即可。原创 2024-09-02 18:28:13 · 298 阅读 · 1 评论