scaling 的作用

最新推荐文章于 2024-10-08 20:32:22 发布

Ai君臣

最新推荐文章于 2024-10-08 20:32:22 发布

阅读量114

点赞数 8

分类专栏： LLMS 微调文章标签：算法人工智能

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/142767676

版权

LLMS 微调专栏收录该内容

4 篇文章 0 订阅

订阅专栏

scaling 控制适应程度指的是对原始模型权重的修改幅度。让我用具体例子解释：

假设我们有一个原始的权重矩阵：

原始权重 = [[1000, 2000],
           [3000, 4000]]

现在看两种不同的 scaling 值如何影响更新：

当 scaling = 2 (alpha=8, r=4) 时：

LoRA更新 = [[80, 100],
           [180, 228]]

新权重 = [[1080, 2100],   # 1000+80, 2000+100
         [3180, 4228]]   # 3000+180, 4000+228

这种情况下的改变相对温和，大约是原始值的 8-10%

当 scaling = 8 (alpha=32, r=4) 时：

LoRA更新 = [[320, 400],    # 80*4, 100*4
           [720, 912]]    # 180*4, 228*4

新权重 = [[1320, 2400],   # 1000+320, 2000+400
         [3720, 4912]]   # 3000+720, 4000+912

这种情况下的改变更剧烈，大约是原始值的 30-40%

所以 “适应程度” 具体表现在：

对原始模型的影响大小
- scaling 小：微小的调整，保持模型主要特性
- scaling 大：显著的改变，更强的任务适应性
学习新任务的速度
- scaling 小：学习较慢，但稳定
- scaling 大：学习较快，但可能过拟合
在实践中的选择
- 如果新任务与原始任务很相似：用小的 scaling
- 如果新任务差异较大：可以用大的 scaling
- 通常从小的 scaling 开始尝试，根据效果调整