【深度好文】你必须要知道-大模型的上下文窗口(Context Window )

AI技术老狗（QA）

已于 2024-09-23 14:09:32 修改

阅读量2.3k

点赞数 22

文章标签：人工智能上下文窗口

于 2024-09-23 13:20:54 首次发布

本文链接：https://blog.csdn.net/longxiaotian718/article/details/142454916

版权

Context Window 上下文窗口：捕捉信息的范围

上下文窗口指的是 AI 模型在生成回答时考虑的 Token 数量。它决定了模型能够捕捉信息的范围。上下文窗口越大，模型能够考虑的信息就越多，生成的回答也就越相关和连贯。

在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。较大的上下文窗口可以提供更丰富的语义信息、消除歧义、处理上下文依赖性，并帮助模型生成连贯、准确的文本，还能更好地捕捉语言的上下文相关性，使得模型能够根据前文来做出更准确的预测或生成。

大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值（catastrophic values）等问题，目前模型的上下文窗口大多不超过128k个token

GPT-4 Turbo 拥有 128k 个 Token 的上下文窗口，相当于超过 300 页的文本。这使得 GPT-4 能够生成更具上下文相关性和微妙差别的回复。

再举个栗子：

比如一个 LLM 模型的 Context Window 为 5，那么在处理句子 “今天天气很好” 中的「天气」这个 Token 时，模型会同时考虑 “今天” 和 “很好” 这两个 Token 的信息，以此来更好地理解「天气」的含义。

扩展阅读：

最近有几个新的语言大模型（LLM）发布，这些模型可以使用非常大的上下文窗口，例如65K词元（MosaicML的MPT-7B-StoryWriter-65k+）和100K词元的上下文窗口（Antropic）。在Palm-2技术报告中，谷歌并没有透露具体上下文大小，但表示他们“显著增加了模型的上下文长度”。

相比之下，当前GPT-4模型可以使用32K输入词元的上下文长度，而大多数开源LLM的上下文长度为2K词元。

如此大的上下文长度意味着提示（prompt）可以达到一本书的大小。《了不起的盖茨比》有72K词元，210页，按1.7分钟/页的阅读速度计算，需要6小时的阅读时间。因此，模型可以扫描并保留此数量的“自定义”信息来处理查询！