为什么gpt输出有随机性？

风可。

已于 2023-03-09 10:47:57 修改

阅读量4.4k

点赞数 3

分类专栏： AIGC NLP 文章标签：深度学习自然语言处理人工智能

于 2023-03-08 22:06:02 首次发布

本文链接：https://blog.csdn.net/u012925804/article/details/129412761

版权

NLP 同时被 2 个专栏收录

2 篇文章

订阅专栏

AIGC

1 篇文章

订阅专栏

GPT模型的输出随机性源于其采样策略，如Top-K和NucleusSampling，这些方法在概率分布上选择单词，引入了不确定性。在推理时，尽管参数固定，但采样过程仍可能导致不同结果。文章讨论了如何通过采样策略控制生成文本的多样性和质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下答案由chatGPT产生！

为什么gpt输出有随机性？

GPT（Generative Pre-trained Transformer）是一种基于Transformer架构的神经语言模型，它是一个深度学习模型，通过在大规模文本数据上进行预训练，从而能够生成人类语言。由于GPT是一个生成模型，因此它的输出具有一定的随机性。

这种随机性是由模型的设计和训练方式所决定的。GPT模型是由多个堆叠的Transformer模块组成，每个模块都包含了多头自注意力机制和前向神经网络。在训练过程中，GPT模型会接收大量的文本数据，并尝试从中学习语言的概率分布。由于语言的使用是非常灵活和多样化的，因此GPT模型在预测下一个单词或句子时，可能会有多种可能性。因此，当我们给定一个特定的输入，GPT模型的输出可能会略微有所不同。

此外，GPT模型还包含一些随机性的元素，比如Dropout和Masked Language Modeling等技术，这些技术在训练过程中会随机地删除或遮蔽一些输入或中间状态，从而增加了模型的鲁棒性和泛化能力，但也会导致输出的随机性增加。

因此，GPT模型的输出具有一定的随机性是正常的现象，这也是深度学习模型的普遍特征之一。

但是模型参数在推理的时候是不变的，为什么在推理的时候GPT还会有随机性？

在推理时，GPT的模型参数是固定的，因此生成的文本是确定的，但是在一定程度上仍然存在随机性。这是因为在生成文本时，GPT模型会采用一种称为“采样”的策略，该策略会引入一些随机性。

具体来说，GPT模型在生成文本时，通常会根据前面的文本内容预测下一个单词或字符，并从预测的概率分布中进行采样，从而得到生成的单词或字符。在这个过程中，采样过程是基于概率分布进行的，因此在相同的输入条件下，模型每次生成的文本可能会有所不同。这种随机性通常可以通过控制采样的策略和参数来降低，例如调整采样温度、采用更稳定的策略等。

此外，模型推理的输入也可能会引入一些随机性。例如，在文本生成任务中，模型的输入可以是一个开头的文本片段，而这个文本片段可能有多种不同的方式可以生成。因此，不同的输入条件也会导致生成的文本略有不同。

总之，虽然GPT在推理时的模型参数是固定的，但是采样过程和输入条件仍然可能会导致输出的随机性。

GPT推理的时候采样策略是什么？

GPT在推理时的采样策略通常是从模型输出的概率分布中进行采样。具体来说，给定前面的文本内容，GPT模型会根据这些文本内容预测下一个单词或字符的概率分布，然后从这个概率分布中进行采样，得到生成的单词或字符。

在采样的过程中，GPT模型可以采用多种不同的策略，包括：

Greedy Sampling：直接选择概率最大的单词或字符作为下一个生成的内容。这种策略最简单、速度最快，但是会导致生成的文本内容过于确定性和缺乏多样性。

Top-K Sampling：限制在预测的概率分布中只保留前K个最可能的单词或字符，然后从这K个单词或字符中随机采样。这种策略可以增加生成文本的多样性，同时避免一些不合理或低概率的单词或字符出现。

Top-p（nucleus）Sampling：限制在预测的概率分布中只保留累积概率大于某个阈值（通常为0.9或0.95）的单词或字符，然后从这个集合中随机采样。这种策略也可以增加生成文本的多样性，同时避免一些低概率的单词或字符出现，但相对于Top-K Sampling，它能够更灵活地处理概率分布的形状。

以上是常用的几种采样策略，当然还有其他的一些策略，比如Beam Search等。实际应用中，不同的任务和需求需要选择不同的采样策略，以达到更好的效果。

chatGPT的采样策略是什么

作为一个大型语言模型，ChatGPT并没有一个固定的采样策略，它可以使用多种不同的策略来生成回复。在常规设置下，ChatGPT的默认采样策略通常是Nucleus Sampling（又称为Top-p Sampling），即从预测概率分布中选择累积概率大于一个预设的阈值（通常是0.9或0.95）的最小单词集合，然后从这个集合中随机采样生成下一个单词。

这种策略相比于贪心采样（即选择预测概率最大的单词）或固定K大小的Top-K采样，更加灵活，在保证生成回复的准确性的同时，可以增加回复的多样性和创造力。同时，ChatGPT也提供了一些参数和选项，以便用户可以自定义采样策略，比如温度、采样次数、回复长度等等。用户可以根据自己的需要来调整这些参数，以达到更好的效果。

代码

https://github.com/Morizeyao/GPT2-Chinese/blob/bbb44651be8361faef35d2a857451d231b5ebe14/generate.py

def top_k_top_p_filtering(logits, top_k=0, top_p=0.0, filter_value=-float('Inf')):
    """ Filter a distribution of logits using top-k and/or nucleus (top-p) filtering
        Args:
            logits: logits distribution shape (vocabulary size)
            top_k > 0: keep only top k tokens with highest probability (top-k filtering).
            top_p > 0.0: keep the top tokens with cumulative probability >= top_p (nucleus filtering).
                Nucleus filtering is described in Holtzman et al. (http://arxiv.org/abs/1904.09751)
        From: https://gist.github.com/thomwolf/1a5a29f6962089e871b94cbd09daf317
    """
    assert logits.dim() == 1  # batch size 1 for now - could be updated for more but the code would be less clear
    top_k = min(top_k, logits.size(-1))  # Safety check
    if top_k > 0:
        # Remove all tokens with a probability less than the last token of the top-k
        indices_to_remove = logits < torch.topk(logits, top_k)[0][..., -1, None]
        logits[indices_to_remove] = filter_value

    if top_p > 0.0:
        sorted_logits, sorted_indices = torch.sort(logits, descending=True)
        cumulative_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)

        # Remove tokens with cumulative probability above the threshold
        sorted_indices_to_remove = cumulative_probs > top_p
        # Shift the indices to the right to keep also the first token above the threshold
        sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
        sorted_indices_to_remove[..., 0] = 0

        indices_to_remove = sorted_indices[sorted_indices_to_remove]
        logits[indices_to_remove] = filter_value
    return logits


def sample_sequence(model, context, length, n_ctx, tokenizer, temperature=1.0, top_k=30, top_p=0.0, repitition_penalty=1.0,
                    device='cpu'):
    context = torch.tensor(context, dtype=torch.long, device=device)
    context = context.unsqueeze(0)
    generated = context
    with torch.no_grad():
        for _ in trange(length):
            inputs = {'input_ids': generated[0][-(n_ctx - 1):].unsqueeze(0)}
            outputs = model(
                **inputs)  # Note: we could also use 'past' with GPT-2/Transfo-XL/XLNet (cached hidden-states)
            next_token_logits = outputs[0][0, -1, :]
            for id in set(generated):
                next_token_logits[id] /= repitition_penalty
            next_token_logits = next_token_logits / temperature
            next_token_logits[tokenizer.convert_tokens_to_ids('[UNK]')] = -float('Inf')
            filtered_logits = top_k_top_p_filtering(next_token_logits, top_k=top_k, top_p=top_p)
            next_token = torch.multinomial(F.softmax(filtered_logits, dim=-1), num_samples=1)
            generated = torch.cat((generated, next_token.unsqueeze(0)), dim=1)
    return generated.tolist()[0]


def fast_sample_sequence(model, context, length, temperature=1.0, top_k=30, top_p=0.0, device='cpu'):
    inputs = torch.LongTensor(context).view(1, -1).to(device)
    if len(context) > 1:
        _, past = model(inputs[:, :-1], None)[:2]
        prev = inputs[:, -1].view(1, -1)
    else:
        past = None
        prev = inputs
    generate = [] + context
    with torch.no_grad():
        for i in trange(length):
            output = model(prev, past=past)
            output, past = output[:2]
            output = output[-1].squeeze(0) / temperature
            filtered_logits = top_k_top_p_filtering(output, top_k=top_k, top_p=top_p)
            next_token = torch.multinomial(torch.softmax(filtered_logits, dim=-1), num_samples=1)
            generate.append(next_token.item())
            prev = next_token.view(1, 1)
    return generate


# 通过命令行参数--fast_pattern，指定模式
def generate(n_ctx, model, context, length, tokenizer, temperature=1, top_k=0, top_p=0.0, repitition_penalty=1.0, device='cpu',
             is_fast_pattern=False):
    if is_fast_pattern:
        return fast_sample_sequence(model, context, length, temperature=temperature, top_k=top_k, top_p=top_p,
                                    device=device)
    else:
        return sample_sequence(model, context, length, n_ctx, tokenizer=tokenizer, temperature=temperature, top_k=top_k, top_p=top_p,
                               repitition_penalty=repitition_penalty, device=device)