大模型常用推理参数工作原理

小嗷犬

已于 2024-07-26 16:00:06 修改

阅读量956

点赞数 30

分类专栏： Python 深度学习大模型文章标签：人工智能自然语言处理深度学习

于 2024-06-09 18:13:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63585949/article/details/139564411

版权

Python 同时被 3 个专栏收录

81 篇文章 22 订阅

订阅专栏

20 篇文章 4 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

do_sample

do_sample 参数控制是否使用采样方法生成输出。当 do_sample=True 时，模型会根据下一个 token 的概率分布进行采样；当 do_sample=False 时，模型会选择概率最大的 token 作为输出。

temperature

temperature 参数通过影响 softmax 控制生成输出时每个 token 的概率分布的平滑程度。

不考虑 temperature 参数，softmax 概率分布的计算公式为：

$\text{prob}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$

加入 temperature 参数后，softmax 概率分布的计算公式为：

$\text{prob}(x_i,t) = \frac{e^{\frac{x_i}{t}}}{\sum_{j=1}^{n} e^{\frac{x_j}{t}}}$

下图展示了 temperature 参数的影响：

temperature

top_k

top_k 参数控制生成输出时，只考虑概率最高的 top_k 个 token。

下图展示了 top_k 参数的影响：

top_k

top_p

top_p 参数与 top_k 参数类似，区别在于 top_p 参数控制生成输出时，只考虑累计概率分布在前 top_p 的 token。

下图展示了 top_p 参数的影响：

top_p

协同工作

同时使用 temperature、top_k、top_p 参数时，它们的影响会以一定顺序叠加。

下图展示了同时使用 temperature、top_k、top_p 参数的影响：

协同工作

temperature、top_k、top_p 参数不会改变各 token 概率的相对大小，因此当 do_sample=False 时，token 的选择不会受到上述三个参数的影响。

关注

30
点赞
踩
32

收藏

觉得还不错? 一键收藏
打赏
4
评论
大模型常用推理参数工作原理

在生成文本时用于控制输出多样性和确定性的三个关键参数：do_sample、temperature、top_k 和 top_p。do_sample 参数决定模型是采用概率采样生成下一个token还是选择最高概率的token。temperature 参数通过调整softmax函数，控制概率分布的平滑度，从而影响输出的随机性或保守性。top_k 和 top_p 参数分别限制了在生成过程中考虑的最高概率token的数量和累计概率比例，进一步引导生成过程中的选择偏向。这些参数可以组合使用，按特定顺序叠加效果。
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小嗷犬 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。