大模型解码策略详解：top-k、top-p与temperature

Bug_makerACE

已于 2025-03-20 20:48:47 修改

阅读量468

点赞数 3

于 2025-02-28 11:31:17 首次发布

本文链接：https://blog.csdn.net/Bug_makerACE/article/details/145923880

版权

为什么需要解码策略？

在大型语言模型（如GPT、LLaMA）的文本生成过程中，直接选择概率最高的词（贪心搜索）会导致重复和机械化的输出，而完全随机采样又可能产生不合理的文本。top-k、top-p和temperature这三个参数，正是为平衡创造性与可控性设计的核心工具。

核心参数解析

1. Top-k 采样

原理

# 伪代码实现
def top_k_sampling(prob_distribution, k=50):
    top_k_probs, top_k_indices = get_top_k(prob_distribution, k)
    sampled_token = random.choice(top_k_indices, weights=top_k_probs)
    return sampled_token

功能：每步生成时，仅保留概率最高的前k个候选词
特点：
- k越大，多样性越强（例：k=100适合创意写作）
- k越小，输出越保守（例：k=10适合技术问答）

典型值建议

场景	k值范围
开放创作	50-100
技术内容生成	20-50
高精度任务	1-10

2. Top-p（核采样）

原理

# 伪代码实现
def top_p_sampling(prob_distribution, p=0.9):
    sorted_probs, sorted_indices = sort_descending(prob_distribution)
    cumulative_probs = calculate_cumulative(sorted_probs)
    cutoff_index = find_first_exceeding(cumulative_probs, p)
    valid_probs = sorted_probs[:cutoff_index+1]
    sampled_token = random.choice(sorted_indices[:cutoff_index+1], weights=valid_probs)
    return sampled_token

功能：动态选择累积概率超过p的最小词集合
特点：
- p=0.9表示只考虑覆盖90%概率质量的词汇
- 自适应上下文：候选词数量随分布变化

典型值建议

场景	p值范围
故事生成	0.9-0.95
对话系统	0.85-0.9
代码生成	0.7-0.85

3. Temperature（温度系数）

3.1. 背景知识：Softmax函数

Softmax函数是将一个实数向量转换为概率分布向量的常用函数。其定义为：对于输入向量 $\mathbf{x}=(x_1,x_2,\cdots,x_n)$ ，经过Softmax函数处理后得到的输出概率分布向量 $\mathbf{p}=(p_1,p_2,\cdots,p_n)$ ，其中 $p_i = \frac{e^{x_i}}{\sum_{j = 1}^{n}e^{x_j}}$ 。该函数使得所有输出元素 $p_i$ 都在 $[0, 1]$ 之间，并且 $\sum_{i = 1}^{n}p_i = 1$ 。同时，当(x_i)的值相对较大时， $e^{x_i}$ 在求和 $\sum_{j = 1}^{n}e^{x_j}$ 中占比较大，对应的 $p_i$ 也较大；反之， $x_i$ 较小时， $p_i$ 也较小。

3.2. 温度调整公式及作用

# 温度调整公式
def apply_temperature(logits, temperature=1.0):
    scaled_logits = logits / temperature
    return softmax(scaled_logits)

此公式的作用是通过调整温度系数（temperature）来控制概率分布的尖锐程度，具体表现如下：

高温（temperature > 1.0）：放大长尾词概率，使结果更随机。
低温（0 < temperature < 1.0）：聚焦头部词，使结果更确定。

3.3. 温度系数对概率分布的数学影响分析

高温情况（`temperature > 1.0`）

当温度系数大于 $1$ 时，scaled_logits中的元素会变小，因为是将logits除以一个大于 $1$ 的数。根据指数函数 $y = e^x$ 的性质，对于不同的输入 $x_i$ 和 $x_j$ ，当对其进行缩放（除以 $T > 1$ ）后， $e^{\frac{x_i}{T}}$ 和 $e^{\frac{x_j}{T}}$ 之间的相对差异会比 $e^{x_i}$ 和 $e^{x_j}$ 之间的相对差异小。因为 $y = e^x$ 是一个凸函数，对 $x$ 进行缩小操作会使指数值之间的差距缩小。

然后经过Softmax函数 $p_i=\frac{e^{\frac{x_i}{T}}}{\sum_{j = 1}^{n}e^{\frac{x_j}{T}}}$ ，得到的概率分布会更加“平滑”。也就是说，原本概率较高的值会降低，原本概率较低的值会升高，使得概率分布更加均匀，从而放大了长尾词的概率，结果更具随机性。

常温情况（`temperature = 1.0`）

当温度系数等于 $1$ 时，scaled_logits = logits，此时经过Softmax函数得到的概率分布就是常规的分布，保持原始的分布状态。如温度效应示意图中，常温（ $1.0$ ）时为 原始分布。

低温情况（`0 < temperature < 1.0`）

当温度系数小于 $1$ 时，scaled_logits中的元素会变大，因为是将logits除以一个小于 $1$ 的正数。例如，假设logits=(x_1,x_2)，当temperature = 0.5时，scaled_logits=(2x_1,2x_2)。

根据指数函数的性质，对不同的输入 $x_i$ 和 $x_j$ 进行缩放（除以 $T < 1$ ）后， $e^{\frac{x_i}{T}}$ 和 $e^{\frac{x_j}{T}}$ 之间的相对差异会比 $e^{x_i}$ 和 $e^{x_j}$ 之间的相对差异大。因为 $y = e^x$ 是凸函数，对 $x$ 进行放大操作会使指数值之间的差距增大。

然后经过Softmax函数 $p_i=\frac{e^{\frac{x_i}{T}}}{\sum_{j = 1}^{n}e^{\frac{x_j}{T}}}$ ，得到的概率分布会更加“尖锐”。即原本概率较高的值会变得更高，原本概率较低的值会变得更低，使得概率分布更加集中在具有较高logits值的类别上，也就是聚焦头部词，结果更确定。

例如，在温度效应示意图中，低温（ $0.5$ ）时头部尖锐化，即 头部尖锐化。

综上所述，通过调整温度系数的值，可以改变scaled_logits的值，进而改变经过Softmax函数后的概率分布的形状，实现对分布尖锐程度的调控。

实战代码示例（Hugging Face）

from transformers import AutoTokenizer, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")

input_text = "人工智能的未来将"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# 组合参数生成
output = model.generate(
    input_ids,
    max_length=100,
    do_sample=True,
    top_k=50,          # 限制候选词数量
    top_p=0.95,        # 控制概率质量覆盖
    temperature=0.8,   # 调节随机性
    num_return_sequences=3
)

for seq in output:
    print(tokenizer.decode(seq, skip_special_tokens=True))

参数组合策略

场景	top-k	top-p	temperature
创意写作	100	0.95	1.0-1.2
技术文档生成	40	0.85	0.7-0.9
客服对话	50	0.9	0.8-1.0
代码补全	30	0.75	0.5-0.7

黄金法则

优先使用top-p：比top-k更自适应
组合调节技巧：
- 高创造性：top-p=0.95 + temperature=1.2
- 高准确性：top-p=0.8 + temperature=0.5
避免冲突设置：
- 不要同时设top_k=10和top_p=0.99（相互矛盾）
- 当temperature→0时，top-k/p将失效