NLP：自然语言生成中的top-k, top-p, typical采样方法的实现

u013250861

已于 2023-10-27 23:37:52 修改

阅读量1.2k

点赞数

分类专栏： # NLP/语义分析(Text2SQL) NLP/自然语言处理文章标签：自然语言处理机器学习人工智能

于 2023-04-10 11:43:03 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/130056491

版权

NLP/自然语言处理同时被 2 个专栏收录

32 篇文章 8 订阅

订阅专栏

NLP/语义分析(Text2SQL)

5 篇文章 2 订阅

订阅专栏

在自然语言生成的任务中，如何对训练好的模型进行解码（decode）是一个火热的研究话题。

对自回归的生成来说，在确定了如何表示 p 之后，就可以制定解码策略了。最简单的两个策略是（1）greedy decoding，每一步都直接选取概率最高的词；（2）beam search，每一步保留若干个概率最高的序列。对这两种方法不太熟悉的朋友也可以先看这篇很好的简介。近几年的很多工作都提到，这两种策略在自然语言生成中并非最佳，往往会生成很多空序列、无意义序列、重复序列等等 [1, 2, 4, 5]。

上述两种策略都是确定性的解码，固定模型和温度之后，每次得到的序列都是相同的，而另一种方案是使用随机解码，比如采样（sampling），即每一步都直接利用 p 采样生成的词。采样可以增加生成的多样性，但是概率分布的长尾也增加了生成句子不连贯的可能性。为了解决这一问题，top-k [1]，top-p (nucleus) [2], typical [3]等方法在采样前对 p 进行剪枝。本文就逐一介绍这三种方法，以及如何在PyTorch较为高效地实现它们。本文主要参考了Huggingface的实现，在实际使用中，如果使用Huggingface，可以直接使用实现好的各种LogitsWarper，不必重复造轮子。

【NLP学习】自然语言生成中的top-k, top-p, typical采样方法的实现 - 知乎