搞懂GPT2张量输入输出结构：shape维度、logits切片与squeeze实战解析-CSDN博客

本文链接：https://blog.csdn.net/qq_36633599/article/details/147893016

本文深入讲解 GPT2 在推理过程中的张量维度结构、logits[:, -1, :] 的含义、squeeze 的使用，以及常见的字典推导式写法，帮助你在调试 Hugging Face 模型时不再迷茫。

在 PyTorch 中，shape 表示一个 张量在每个维度上有多少个元素，也就是数据的“形状规格”。

GPT2 接受的输入通常是二维张量：

input_ids.shape = [batch_size, sequence_length]

输出 logits 是三维张量：

logits.shape = [batch_size, sequence_length, vocab_size]

这是最常见的切片写法，表示：

📌 结果 shape 为 [batch_size, vocab_size]

logits = model(input_ids).logits
next_token_logits = logits[:, -1, :]  # shape: [B, V]

用途：预测“下一个词”应该是什么。

x = torch.tensor([[1, 2, 3]])  # shape: [1, 3]
x_squeezed = x.squeeze(0)      # shape: [3]

x = torch.tensor([[1, 2, 3], [4, 5, 6]])  # shape: [2, 3]
x_squeezed = x.squeeze(0)                # 仍是 [2, 3]

🔁 .squeeze(dim) 只有当该维是 1 时才会生效，否则保持原样。

在 Hugging Face 推理时，你经常会看到如下代码：

inputs = tokenizer("你好", return_tensors="pt")
inputs = {k: v.squeeze(0) for k, v in inputs.items()}

解释：

等价写法（展开）：

new_inputs = {}
for k, v in inputs.items():
    new_inputs[k] = v.squeeze(0)

假设：

logits.shape = [2, 5, 50257]

可视化理解如下：

logits = [
  [ [token1_logits], ..., [token5_logits] ],  # 第1句话
  [ [token1_logits], ..., [token5_logits] ]   # 第2句话
]

再看 logits[:, -1, :]：

[
  [50257 logits for 第1句话最后1词],
  [50257 logits for 第2句话最后1词]
]

即输出 shape 为 [2, 50257]，每行是一个句子最后 token 的预测向量。

📌 YoanAILab 技术导航页

💡 项目源码 × 实战部署 × 转型经验，一页总览
👉 点击查看完整导航页

📚 包含内容：