【大模型系列】大模型的上下文长度解释与拓展

最新推荐文章于 2025-05-07 20:10:42 发布

kabuto_hui

最新推荐文章于 2025-05-07 20:10:42 发布

阅读量1w

点赞数 14

文章标签： pytorch 深度学习人工智能 gpt-3 自然语言处理计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kabuto_hui/article/details/138359826

版权

文章探讨了大模型上下文长度的概念，强调了其在处理复杂查询和文档理解中的优势与挑战。介绍了国内模型如KimiChat的进展，以及通过插值和外推技术拓展上下文的方法，包括zero-shot和fine-tune。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1 什么是大模型的上下文长度？
2 拓展大模型上下文长度的方式
参考资料

1 什么是大模型的上下文长度？

大模型的上下文长度（Context Length）是指在自然语言处理（NLP）的大型语言模型（Large Language Models，LLM）中，模型在处理输入信息时能够考虑的最大文本量(一次处理的最大tokens数量)。
超长上下文的优势：

可以处理更复杂的查询和更长的文档
更强的理解能力

超长上下文的挑战：

推理时间变长
推理显存空间变大

大模型在持续推理的过程中，需要缓存一个叫做 KV Cache 的数据快，KV Cache 的大小也与序列长度成正比。以 Llama 2 13B 大模型为例，一个 4K 长的序列大约需要 3G 的显存去缓存 KV Cache，16K 的序列则需要 12G，128K 的序列则需要 100G 显存。

在这里插入图片描述
Source: 如何扩展大模型的上下文长度
目前国内外大模型上下文长度支持情况如下：

在这里插入图片描述
Source: 大模型长上下文运行的关键问题

国内最近(2024)很火的Kimi Chat支持的上下文长度以及拓展到40万tokens。

2 拓展大模型上下文长度的方式

论文The What, Why, and How of Context Length Extension Techniques in Large Language Models – A Detailed Survey 对现有大模型上下文长度拓展方法做了详细的总结：
在这里插入图片描述

主要将其分为了Interpolation(插值)和Extrapolation(外推)技术：

Interpolation： 融合不同来源或者不同上下文的信息，以提高预测的准确性；
Extrapolation： 将模型的理解范围扩大到其训练的上下文长度之外。

其中：

zero-shot： 表示先对模型进行改造，再重新训练，使模型自身具备长文本分析的能力；
fine-tune： 表示对已经训练好的不支持长文本的模型进行改造，再进行微调；

大致可以简单分为以下几种主要的方式：
在这里插入图片描述

参考资料

[1] 如何扩展大模型的上下文长度
[2] 支持超长上下文输入的大语言模型评测和总结——ChatGLM2-6B表现惨烈，最强的依然是商业模型GPT-3.5与Claude-1.3
[3] 大模型长上下文运行的关键问题
[4] 卷完参数后，大模型公司又盯上了“长文本”？
[5] The What, Why, and How of Context Length Extension Techniques in Large Language Models – A Detailed Survey

博客等级

码龄10年

人工智能领域优质创作者

博客专家认证

168
原创

1540
点赞

4147
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

安卓学习笔记(21)-flutter doctor时显示X Unable to locate Android SDK的解决方案
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
【大模型系列】一文看懂SAM大模型
kabuto_hui: 是的，只能区分目标和背景，也就是二分割。mask输出的形状为[b,1,h,w]时，输出的是目标的整体分割结果，还可以输出形状为[b,3,h,w]，输出的结果就是这个目标whole、part和subpart的部分，参考3.3小节。
【大模型系列】一文看懂SAM大模型
不想转生信的小张: 大佬大佬，mask_decoder输出的形状我看是[b,1,h,w]，是因为它只能做二分割吗？
【大模型系列】CogAgent(2024.12)
kabuto_hui: hello，我个人体验来看，cogagent的grounding能力还是比较好的。你遇到到的坐标完全不准确的可能是因为没有进行坐标转换。cogagent输出的坐标格式为[xmin,ymin,xmax,ymax]，且都是归一化为0~1000的，所以在实际使用时需要转换为原图坐标系： xmin = xmin / 1000 * img_w ymin = ymin / 1000 * img_h xmax = xmax / 1000 * img_w yamx = ymax / 1000 * img_h
【大模型系列】CogAgent(2024.12)
ws卍: 您好，请问您在实测过程中有遇到返回坐标不准确的问题吗，我使用modelscope上面的官方demo试了下，能精准的框出目标元素，但是返回的坐标是完全不准确的

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。