简单解析DeepSeek OCR模型论文

最新推荐文章于 2025-11-10 18:50:33 发布

原创最新推荐文章于 2025-11-10 18:50:33 发布 · 1.5k 阅读

·

57

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#1024程序员节

1. 论文要点

问题与动机：LLM处理长上下文时，纯文本token成本过高。作者提出把长文本“编码成高分辨率图像”，再用视觉token喂给VLM，从而以视觉通道完成“上下文压缩”。这就是所谓 Contexts Optical Compression（COC）。
核心贡献：提出 DeepSeek-OCR 框架，由 DeepEncoder（视觉侧压缩器） 与 DeepSeek3B-MoE-A570M（文本解码器） 组成；在保持较高可恢复度的同时，把长上下文token数量压到原来的 1/7～1/20。
实验结论（代表性）：在中等压缩比下可达 ~97% 解码准确率；极端压缩下约 ~60%。在长文档、表格/图表等结构化材料上尤其节省token
开源与可用性：论文、Hugging Face权重与GitHub代码已放出，并且vLLM已支持推理

2. 方法框架与设计抉择

2.1 总体结构

DeepEncoder：把大段文本/文档（含表格、格式）渲染成高分辨率二维图像；网络设计目标是：在尽量少的视觉token前提下，保留可还原语义所必需的版式/字符细节。直观理解：它把“语言token负担”转移为“视觉token负担”，而视觉端的patch/token 密度更低
Decoder（DeepSeek3B-MoE-A570M）：一个专家路由（MoE）式的因果文本解码器，专门学习从视觉token还原文本与结构（含Markdown/表格/层级标题等）。MoE让不同子专家处理不同子任务（字符、排版、结构提示等）

直观类比：像把一段20k tokens的对话历史，先“拍成几张高清图”，再让会读图的模型读图复述。这避免了直接把20k文本token继续堆给LLM。

2.2 视觉token的“性价比”

视觉patch的表达密度更高：一页A4渲染为单/少量图像，再切成数百个patch即可覆盖整页——而纯文本token化同页内容可能数千到上万。论文报告7～20× token节省，分场景浮动
信息保真与噪声：过高压缩会丢字形/标点/行距信息，影响还原；因此论文给出在不同压缩档位间的质量—成本权衡曲线（中档≈97%准确，极限≈60%）

2.3 训练与数据（论文披露层面）

论文定位为“初步探索”，强调方法可行性而非终极SOTA OCR基线；强调对长上下文记忆/检索的系统意义。具体数据/损失设计的细节以开源代码与使用文档为准（Hugging Face、GitHub）

3. 实验与指标

压缩收益：历史上下文不同阶段可达 7–20× token减少
解码准确率：中等压缩接近 ~97%；最高压缩约 ~60%
任务类型：对表格、图表、排版复杂PDF/截图尤为有效（视觉结构提供了先验）。
生态对接：已适配 vLLM 批处理/离线推理；社区有在 NVIDIA Spark/Colab 的实测经验帖。

注：部分博客还提及在“OmniDocBench”等实测对比，但以官方论文与仓库信息为最可信依据，避免被二手解读带偏。

4. 与“传统OCR / 通用VLM OCR”的关系

相同点：都要从视觉输入中恢复字符与结构。
关键不同：本工作目标不是“只做更准的OCR”，而是把OCR当作LLM长上下文压缩通道——先转图再读图，把原本贵的语言token换成便宜的视觉token。相比之前DeepSeek-VL/VL2等“看图读字”，这里更强调上下文经济性与端到端上下文恢复

5. 优势、边界与潜在坑

优势

巨大上下文成本下降：长对话/长文档的历史可“光学封装”，节省7–20× token
结构化材料友好：表格/图表/多栏排版在视觉域天然保留结构
工程可用：权重/代码已开源，且vLLM支持，易并入现有pipeline

边界/风险

极限压缩质量下降：压得太狠会掉字、掉标点、表格边界模糊，准确率下降至~60%
延迟与显存：高分辨率渲染与视觉编码本身也要显存/算力，需评估图像分辨率 × batch size × vLLM KV cache的综合开销
域外泛化：打印体/清晰PDF效果最佳；对手写、相机噪声、阴影/折痕等是否稳定，需要你在目标域做A/B。论文定位“初探”亦提示了这一点

参考与资源

论文（arXiv）：DeepSeek-OCR: Contexts Optical Compression
官方博文（方法综述/图解）：(DeepSeek AI)
代码与权重：GitHub 与 Hugging Face（含安装/推理示例、vLLM 支持）(GitHub)
vLLM 使用指南（批处理/部署配方）：(VLLM Docs)
实战经验帖（环境适配/踩坑记录）：(Simon Willison’s Weblog)

如果对大家有帮助的话，希望点个大大的赞吧！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。