General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
论文链接地址 https://arxiv.org/pdf/2409.01704
项目地址 https://github.com/Ucas-HaoranWei/GOT-OCR2.0
模型应用速览
- 愿景
- 识别出诸如纯文本,数学公式/化学分子式,表格,图表,乐谱,甚至几何形状等所有光学信号
- 相关信息
- 参数量:580M
- 结构:包含一个高压缩率的编码器和长上下文的解码器
- 输出格式:文本,markdown,tikz,smiles,kern
- 交互模式:画框识别
- 应用场景
引言
Motivation
现在的LVLM模型普遍采用的切图方案设计可能不能适用于更广泛的ocr场景,局限性如下:
- 感知和推理之间的矛盾:LVLMs在视觉推理任务上更容易获取增益(文中提到的QA-gain),即少量的视觉token和文本更容易对齐;而对于感知任务而言,这种high-density场景,视觉token难以覆盖到图中的所有字符,因此对齐的难度更大,体现出了切图方案的不合理性。(ps. 小编认为切图方案的思路是让相同数量的视觉token能代表更多的图片信息,应该和像素有关,和文本字符的数量没有太大关系)
- 切图方案的训练和部署阶段的计算代价太高了
OCR-2.0 model (GOT)
方案简介
- Encoder
- VitDet
- 参数量:80M
- 图像输入维度:1024*1024
- 图像输出维度:256*1024
- Decoder
- 参数量:0.5B
- 支持的上下文长度:8K
- Training
- 三阶段
- decoupled pre-training of the encoder
- joint-training of the encoder with a new decoder
- post-training of the decoder
- 其他策略
- 超高分辨率图像(>2k)
- 多页OCR问题
- 数据策略
- 三阶段
优势
- 端到端
- 低消耗
- 更通用
相关工作
传统OCR
集成多个领域专家模型(如layout分析,文本检测,区域提取,内容识别等),现在难以满足要求