目录
GOT-OCR-2.0 正式开源!
随着对人工光学字符智能处理需求的不断增长,传统 OCR 系统(OCR-1.0)已无法满足用户需求。本文将所有人工光信号(如纯文本、数学/分子式、表格、图表、乐谱甚至几何形状)统称为“字符”,并提出通用OCR理论及名为 GOT 的优秀模型,推动 OCR-2.0 时代的到来。
GOT 是一个拥有5.8亿参数的统一、优雅、端到端的模型,由高压缩编码器和长上下文解码器组成。作为 OCR-2.0 模型,GOT 能够处理上述所有“字符”的各种 OCR 任务。
OCR-2.0 model GOT 自 2024年9月3日发布并宣布正式开源,近期一直处于活跃状态。
GOT 模型特点:
- 开源友好: GOT 模型代码、权重和 benchmark 全部开源,方便开发者快速上手,进行研究和应用开发!
- 部署便捷: GOT 模型支持 Huggingface 部署,社区已实现 llama_cpp_inference 的第一个版本,让你轻松玩转 OCR!
GOT 模型发展历程:
- 2024年9月3日: GOT 模型代码、权重和 benchmark 正式开源,同时论文提交 Arxiv,标志着 OCR 2.0 时代的到来!
- 2024年9月13日: GOT 模型 Huggingface 部署上线,开发者可以更方便地体验 GOT 模型的强大性能!
- 2024年9月14日: GOT 模型官方 demo 正式发布,感谢 Huggingface 提供的 GPU 资源!
- 2024年9月23日: GOT 模型 Modelscope 官方 demo 发布,感谢 Modelscope 提供的 GPU 资源!
- 2024年9月24日: GOT 模型支持 ms-swift 快速微调,开发者可以使用自己的数据轻松定制模型!
- 2024年9月29日&#