【论文笔记】General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

论文链接地址 https://arxiv.org/pdf/2409.01704
项目地址 https://github.com/Ucas-HaoranWei/GOT-OCR2.0

模型应用速览

  • 愿景
    • 识别出诸如纯文本,数学公式/化学分子式,表格,图表,乐谱,甚至几何形状等所有光学信号
  • 相关信息
    • 参数量:580M
    • 结构:包含一个高压缩率的编码器和长上下文的解码器
    • 输出格式:文本,markdown,tikz,smiles,kern
    • 交互模式:画框识别
  • 应用场景
    OCR2.0 模型支持的场景

引言

Motivation

现在的LVLM模型普遍采用的切图方案设计可能不能适用于更广泛的ocr场景,局限性如下:

  1. 感知和推理之间的矛盾:LVLMs在视觉推理任务上更容易获取增益(文中提到的QA-gain),即少量的视觉token和文本更容易对齐;而对于感知任务而言,这种high-density场景,视觉token难以覆盖到图中的所有字符,因此对齐的难度更大,体现出了切图方案的不合理性。(ps. 小编认为切图方案的思路是让相同数量的视觉token能代表更多的图片信息,应该和像素有关,和文本字符的数量没有太大关系)
  2. 切图方案的训练和部署阶段的计算代价太高了

OCR-2.0 model (GOT)

方案简介

  • Encoder
    • VitDet
    • 参数量:80M
    • 图像输入维度:1024*1024
    • 图像输出维度:256*1024
  • Decoder
    • 参数量:0.5B
    • 支持的上下文长度:8K
  • Training
    • 三阶段
      • decoupled pre-training of the encoder
      • joint-training of the encoder with a new decoder
      • post-training of the decoder
    • 其他策略
      • 超高分辨率图像(>2k)
      • 多页OCR问题
      • 数据策略

优势

  1. 端到端
  2. 低消耗
  3. 更通用

相关工作

传统OCR

集成多个领域专家模型(如layout分析,文本检测,区域提取,内容识别等),现在难以满足要求

LVLM驱动下的OCR

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值