Different decoding methods for LLMs

连理o

已于 2024-08-25 10:58:10 修改

阅读量668

点赞数 16

文章标签： LLM

于 2024-07-03 23:53:27 首次发布

本文链接：https://blog.csdn.net/weixin_42437114/article/details/140164239

版权

模型部署专栏收录该内容

24 篇文章 1 订阅

订阅专栏

Greedy Search
Beam search
Sampling
Repetition Penalty
Prompt Engineering
- [NeurIPS 2022] Chain-of-thought prompting elicits reasoning in large language models
- [NeurIPS 2024] Self-Refine: Iterative Refinement with Self-Feedback
References

Greedy Search

在这里插入图片描述

model_inputs = tokenizer(
	'I enjoy walking with my cute dog', return_tensors='pt'
).to(torch_device)

greedy_output = model.generate(
	**model_inputs,
	max_new_tokens=40
)

Beam search

在这里插入图片描述

Beam search 时刻保存累积概率最大的 num_beams 条路径，上图中 num_beams=2. Beam search 可以找到累积概率更高的输出，但计算量会扩大 num_beams 倍，KV Cache 占用也会增加，此外对于 LLM 而言，更高的累积概率并不一定代表更高质量的输出，即使一些关键 token 处的概率与生成质量正相关，这些信息也完全被序列中其他语义不关键内容的概率完全摊平了，这导致 token 序列的概率显著与语义概率偏离。以上原因均导致 LLM 推理中比较少使用 beam search

beam_output = model.generate(
    **model_inputs,
    max_new_tokens=40,
    num_beams=5,	# generation is finished when all beam hypotheses reached the EOS token
    early_stopping=True
)

Sampling

Temperature

sample_output = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_k=0,
    temperature=0.6,
)

Top-K Sampling

Top-K Sampling 从 Top-K token 中采样生成下个 token，用于增加生成随机性

sample_output = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_k=50
)

Top-p (nucleus) sampling

Top-p sampling 从累积概率超过 $p$ 的最少 token 组成的集合中采样生成下个 token. 相比 Top-K 采样，这种采样方式可能可以避免一些特殊情况，例如下左图中，概率分布普遍比较平坦，此时 Top-K 采样无法采样到 “man” 之后的 token，但这些 token 同样是很有可能被生成的，或者下右图中，概率分布比较陡峭，此时 Top-K 采样可能会采样到一些概率值很小的 token，使得生成结果变差
而 Top-p 采样则可以有效避免上述两种情况

sample_output = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_p=0.92,
    top_k=0
)

虽然从理论上讲，Top-p 似乎比 Top-K 更优雅，但这两种方法在实践中都很好用。Top-p 也可以与 Top-K 结合使用，这可以避免分数非常低的 Token，同时提供一些动态选择的空间

sample_outputs = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_k=50,
    top_p=0.95,
)

Repetition Penalty

语言模型在生成时经常会出现重复生成的问题，CTRL 这篇论文提供了一个简单的解决方案，就是记录之前已经生成过的 token，当预测下一个 token 时，人为降低已经生成过的 token 的分数，使其被采样到的概率降低
$p_i=\frac{\exp \left(x_i /(T \cdot I(i \in g))\right.}{\sum_j \exp \left(x_j /(T \cdot I(j \in g))\right.} \quad I(c)=\theta \text { if } \mathrm{c} \text { is True else } 1$ 其中， $T$ 为 temperature， $g$ 为已生成的 token 列表， $\theta\geq 1$ 为惩罚系数

sample_outputs = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    repetition_penalty=1.2,
)