DeepSeek-OCR：下一代文档理解模型的技术跃迁-CSDN博客

本文链接：https://blog.csdn.net/lpfasd123/article/details/154062394

过去十几年，OCR（Optical Character Recognition，光学字符识别）一直在“识字”这件事上精益求精：
从传统的 CNN-LSTM 结构，到 CRAFT、PaddleOCR、GOT-OCR，模型们都在追求一个目标——更高的识别准确率。

但当大模型（LLM / VLM）登上舞台后，问题变了。
我们不再满足于“识别文字”，而是希望机器能理解整份文档的结构、语义和上下文。

于是，DeepSeek 团队在 2025 年 10 月发布了论文
《DeepSeek-OCR: Contexts Optical Compression》，
提出了一个全新的思路：把文档当成视觉上下文压缩问题，而不是简单的字符检测。

DeepSeek-OCR 整体可以分成两部分：

视觉编码器（DeepEncoder）
- 输入整页文档（PDF、图片、图表等）
- 将图像压缩为一组高语义的视觉 token（数量远小于像素或字符级 token）
- 类似“视觉摘要”：把整页图像编码成几十个 token
语言解码器（DeepSeek-3B-MoE-A570M）
- 一个 Mixture-of-Experts（混合专家）语言模型
- 负责将视觉 token 转化为自然语言输出
- 输出既可以是纯文本，也可以是结构化内容（如表格、公式）

它的核心思想是“Contexts Optical Compression”——
让模型压缩视觉上下文，再用语言能力去重建语义。

换句话说：
传统 OCR 是“看清每个字”；
DeepSeek-OCR 是“理解整页内容，再复述出来”。

DeepSeek-OCR 将输入的高分辨率页面划分为区域块，通过 DeepEncoder 提取高维特征，映射成有限数量的视觉 token。
论文中提到的压缩比高达 10× 到 20×。

这意味着，每页文档可以只用原始文字 token 的 1/10，就表达足够语义信息。

DeepSeek-OCR 把视觉 token 的空间分布纳入建模，而非简单的线性序列化。
也就是说，模型知道“这个表格在左上角”、“公式在右下角”，
从而保留页面布局的结构感。

这使得它能处理：

语言解码部分采用混合专家结构。
不同的专家专门处理不同类型的文本（普通段落、数学公式、表格、代码片段等）。

这种结构既能提升推理速度（因为每次只激活部分专家），
又能提升输出的语义多样性。

在论文实验部分，DeepSeek-OCR 在多个公开基准中表现亮眼：

基准集	Token 数量	精度（<10× 压缩）	对比模型
OmniDocBench	~100 视觉 token	97%	优于 GOT-OCR 2.0 (256 token)
MinerU 2.0	~800 视觉 token	96%+	超过 DocVLM / InternLM-OCR
复杂文档（化学、表格）	6000+ 文本 token → 800 视觉 token	精度下降 ≤ 3%	速度提升 2-3 倍

此外，论文提到该系统在单张 A100-40G GPU 上，
每天可生成 20 万页训练样本，大幅降低数据合成成本。