引言:从文字识别到文档理解的演进
过去十几年,OCR(Optical Character Recognition,光学字符识别)一直在“识字”这件事上精益求精:
从传统的 CNN-LSTM 结构,到 CRAFT、PaddleOCR、GOT-OCR,模型们都在追求一个目标——更高的识别准确率。
但当大模型(LLM / VLM)登上舞台后,问题变了。
我们不再满足于“识别文字”,而是希望机器能理解整份文档的结构、语义和上下文。
于是,DeepSeek 团队在 2025 年 10 月发布了论文
《DeepSeek-OCR: Contexts Optical Compression》,
提出了一个全新的思路:把文档当成视觉上下文压缩问题,而不是简单的字符检测。
一、架构总览:从“识字”到“视觉-语言压缩”
DeepSeek-OCR 整体可以分成两部分:
-
视觉编码器(DeepEncoder)
- 输入整页文档(PDF、图片、图表等)
- 将图像压缩为一组高语义的视觉 token(数量远小于像素或字符级 token)
- 类似“视觉摘要”:把整页图像编码成几十个 token
-
语言解码器(DeepSeek-3B-MoE-A570M)
- 一个 Mixture-of-Experts(混合专家)语言模型
- 负责将视觉 token 转化为自然语言输出
- 输出既可以是纯文本,也可以是结构化内容(如表格、公式)
它的核心思想是“Contexts Optical Compression”——
让模型压缩视觉上下文,再用语言能力去重建语义。
换句话说:
传统 OCR 是“看清每个字”;
DeepSeek-OCR 是“理解整页内容,再复述出来”。
二、关键技术机制
1. 视觉 Token 化
DeepSeek-OCR 将输入的高分辨率页面划分为区域块,通过 DeepEncoder 提取高维特征,映射成有限数量的视觉 token。
论文中提到的压缩比高达 10× 到 20×。
- 当压缩比 < 10× 时,准确率可达 97%
- 即便压缩比到 20×,精度仍保持在 60% 左右
这意味着,每页文档可以只用原始文字 token 的 1/10,就表达足够语义信息。
2. 二维光学映射(Optical 2D Mapping)
DeepSeek-OCR 把视觉 token 的空间分布纳入建模,而非简单的线性序列化。
也就是说,模型知道“这个表格在左上角”、“公式在右下角”,
从而保留页面布局的结构感。
这使得它能处理:
- 多栏排版
- 表格与图像混排
- 化学结构式、几何图形、乐谱等非文字元素
3. 混合专家解码(MoE)
语言解码部分采用混合专家结构。
不同的专家专门处理不同类型的文本(普通段落、数学公式、表格、代码片段等)。
这种结构既能提升推理速度(因为每次只激活部分专家),
又能提升输出的语义多样性。
三、实验结果与性能表现
在论文实验部分,DeepSeek-OCR 在多个公开基准中表现亮眼:
| 基准集 | Token 数量 | 精度(<10× 压缩) | 对比模型 |
|---|---|---|---|
| OmniDocBench | ~100 视觉 token | 97% | 优于 GOT-OCR 2.0 (256 token) |
| MinerU 2.0 | ~800 视觉 token | 96%+ | 超过 DocVLM / InternLM-OCR |
| 复杂文档(化学、表格) | 6000+ 文本 token → 800 视觉 token | 精度下降 ≤ 3% | 速度提升 2-3 倍 |
此外,论文提到该系统在单张 A100-40G GPU 上,
每天可生成 20 万页训练样本,大幅降低数据合成成本。
四、与其他 OCR 模型的对比分析
| 模型 | 核心机制 | 优点 | 局限 |
|---|---|---|---|
| GOT-OCR 2.0 | Transformer + Layout | 高精度,通用性强 | Token 数量多,推理慢 |
| DocVLM / InternLM-OCR | 视觉语言联合训练 | 语义理解更强 | 成本高,非开源 |
| Google Vision / PaddleOCR | 传统检测 + 识别流水线 | 工业级成熟 | 无上下文理解能力 |
| DeepSeek-OCR | 视觉压缩 + MoE 语言解码 | 高压缩比、高速、强上下文理解 | 极端压缩下精度下降、需较强算力 |
可以看出,DeepSeek-OCR 的最大突破在于计算效率与语义一致性的平衡:
它不是为了“最高识别率”,而是为了“最有效率的长文档理解”。
五、创新与局限性
优点
- 高压缩比:10× 压缩仍能保持高精度
- 视觉语言融合自然:支持多模态理解
- 开源可复现:GitHub 与 Hugging Face 全部公开
- 扩展性强:可用于 PDF、手写、扫描件等场景
局限
- 极端压缩(20×)下信息损失明显
- 训练成本高,对 GPU 内存要求较大
- 对手写体、低清晰度扫描件的鲁棒性仍需验证
六、未来展望
DeepSeek-OCR 的意义不仅在于“更好的 OCR”,
而在于让 LLM 理解视觉上下文的一个关键环节。
未来它可能成为:
- PDF 或网页摘要生成器的核心模块
- AI 助手的文档读取器
- 智能知识抽取工具(从文档到结构化知识)
对于开发者或创业者来说,
这意味着你可以构建一个“会读文档的 AI”,
它不再需要精准识别每个字母,而是理解整页语义。
参考资料
小结
DeepSeek-OCR 代表了从“识字”到“理解文档”的范式转变。
它不再是 OCR 的延伸,而是文档级智能的起点。

被折叠的 条评论
为什么被折叠?



