3、大模型重要参数解析top_k、top_p、temperature

最新推荐文章于 2025-02-27 14:13:52 发布

大模型炼丹师

最新推荐文章于 2025-02-27 14:13:52 发布

阅读量1.5k

点赞数 15

分类专栏：大模型文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/hugofgh/article/details/140073452

版权

9 篇文章

订阅专栏

模型重要参数解析

总结：先选取top_K个token，然后保留概率的累计和达到top_p的token，然后用Temperature 进行归一化改变概率分布（温度越低，概率分布差距越大，越容易采样到概率大的字。温度越高，概率分布差距越小，增加了低概率字被采样到的机会），最后随机采样。

思路：从 tokens 里选择 k 个作为候选，然后根据它们的 likelihood scores 来采样模型从最可能的"k"个选项中随机选择一个，如果k=3，模型将从最可能的3个单词中选择一个
优点：Top-k 采样是对前面“贪心策略”的优化，它从排名前 k 的 token 中进行抽样，允许其他分数或概率较高的token 也有机会被选中。在很多情况下，这种抽样带来的随机性有助于提高生成质量。
缺点：在分布陡峭的时候仍会采样到概率小的单词，或者在分布平缓的时候只能采样到部分可用单词。k不太好选：k设置越大，生成的内容可能性越大；k设置越小，生成的内容越固定；设置为1时，和 greedy decoding 效果一样。

思路：候选词列表是动态的，从 tokens 里按百分比选择候选词，模型从累计概率大于或等于“p”的最小集合中随机选择一个，如果p=0.9，选择的单词集将是概率累计到0.9的那部分。
top-P采样方法往往与top-K采样方法结合使用，每次选取两者中最小的采样范围进行采样，可以减少预测分布过于平缓时采样到极小概率单词的几率。如果k和p都启用，则p在k之后起作用。
top-P越高，候选词越多，多样性越丰富。top-P越低，候选词越少，越稳定
优点：top-k 有一个缺陷，那就是“k 值取多少是最优的？”非常难确定。于是出现了动态设置 token 候选列表大小策略——即核采样（Nucleus Sampling）。
缺点：采样概率p设置太低模型的输出太固定，设置太高，模型输出太过混乱。

思路：通过温度，在采样前调整每个词的概率分布。温度越低，概率分布差距越大，越容易采样到概率大的字。温度越高，概率分布差距越小，增加了低概率字被采样到的机会。
参数：temperature(取值范围：0-1)设的越高，生成文本的自由创作空间越大，更具多样性。温度越低，生成的文本越偏保守，更稳定。
一般来说，prompt 越长，描述得越清楚，模型生成的输出质量就越好，置信度越高，这时可以适当调高 temperature 的值；反过来，如果 prompt 很短，很含糊，这时再设置一个比较高的 temperature 值，模型的输出就很不稳定了。