1. 论文要点
-
问题与动机:LLM处理长上下文时,纯文本token成本过高。作者提出把长文本“编码成高分辨率图像”,再用视觉token喂给VLM,从而以视觉通道完成“上下文压缩”。这就是所谓 Contexts Optical Compression(COC)。
-
核心贡献:提出 DeepSeek-OCR 框架,由 DeepEncoder(视觉侧压缩器) 与 DeepSeek3B-MoE-A570M(文本解码器) 组成;在保持较高可恢复度的同时,把长上下文token数量压到原来的 1/7~1/20。
-
实验结论(代表性):在中等压缩比下可达 ~97% 解码准确率;极端压缩下约 ~60%。在长文档、表格/图表等结构化材料上尤其节省token
-
开源与可用性:论文、Hugging Face权重与GitHub代码已放出,并且vLLM已支持推理
2. 方法框架与设计抉择
2.1 总体结构
-
DeepEncoder:把大段文本/文档(含表格、格式)渲染成高分辨率二维图像;网络设计目标是:在尽量少的视觉token前提下,保留可还原语义所必需的版式/字符细节。直观理解:它把“语言token负担”转移为“视觉token负担”,而视觉端的patch/token 密度更低
-
Decoder(DeepSeek3B-MoE-A570M):一个专家路由(MoE)式的因果文本解码器,专门学习从视觉token还原文本与结构(含Markdown/表格/层级标题等)。MoE让不同子专家处理不同子任务(字符、排版、结构提示等)
直观类比:像把一段20k tokens的对话历史,先“拍成几张高清图”,再让会读图的模型读图复述。这避免了直接把20k文本token继续堆给LLM。
2.2 视觉token的“性价比”
-
视觉patch的表达密度更高:一页A4渲染为单/少量图像,再切成数百个patch即可覆盖整页——而纯文本token化同页内容可能数千到上万。论文报告7~20× token节省,分场景浮动
-
信息保真与噪声:过高压缩会丢字形/标点/行距信息,影响还原;因此论文给出在不同压缩档位间的质量—成本权衡曲线(中档≈97%准确,极限≈60%)
2.3 训练与数据(论文披露层面)
-
论文定位为“初步探索”,强调方法可行性而非终极SOTA OCR基线;强调对长上下文记忆/检索的系统意义。具体数据/损失设计的细节以开源代码与使用文档为准(Hugging Face、GitHub)
3. 实验与指标
-
压缩收益:历史上下文不同阶段可达 7–20× token减少
-
解码准确率:中等压缩接近 ~97%;最高压缩约 ~60%
-
任务类型:对表格、图表、排版复杂PDF/截图尤为有效(视觉结构提供了先验)。
-
生态对接:已适配 vLLM 批处理/离线推理;社区有在 NVIDIA Spark/Colab 的实测经验帖。
注:部分博客还提及在“OmniDocBench”等实测对比,但以官方论文与仓库信息为最可信依据,避免被二手解读带偏。
4. 与“传统OCR / 通用VLM OCR”的关系
-
相同点:都要从视觉输入中恢复字符与结构。
-
关键不同:本工作目标不是“只做更准的OCR”,而是把OCR当作LLM长上下文压缩通道——先转图再读图,把原本贵的语言token换成便宜的视觉token。相比之前DeepSeek-VL/VL2等“看图读字”,这里更强调上下文经济性与端到端上下文恢复
5. 优势、边界与潜在坑
优势
-
巨大上下文成本下降:长对话/长文档的历史可“光学封装”,节省7–20× token
-
结构化材料友好:表格/图表/多栏排版在视觉域天然保留结构
-
工程可用:权重/代码已开源,且vLLM支持,易并入现有pipeline
边界/风险
-
极限压缩质量下降:压得太狠会掉字、掉标点、表格边界模糊,准确率下降至~60%
-
延迟与显存:高分辨率渲染与视觉编码本身也要显存/算力,需评估图像分辨率 × batch size × vLLM KV cache的综合开销
-
域外泛化:打印体/清晰PDF效果最佳;对手写、相机噪声、阴影/折痕等是否稳定,需要你在目标域做A/B。论文定位“初探”亦提示了这一点
参考与资源
-
论文(arXiv):DeepSeek-OCR: Contexts Optical Compression
-
官方博文(方法综述/图解):(DeepSeek AI)
-
代码与权重:GitHub 与 Hugging Face(含安装/推理示例、vLLM 支持)(GitHub)
-
vLLM 使用指南(批处理/部署配方):(VLLM Docs)
-
实战经验帖(环境适配/踩坑记录):(Simon Willison’s Weblog)
如果对大家有帮助的话,希望点个大大的赞吧!

1137

被折叠的 条评论
为什么被折叠?



