GOT-OCR-2.0模型调用，OCR识别,text格式输出

最新推荐文章于 2025-04-07 09:54:10 发布

混混子儿

最新推荐文章于 2025-04-07 09:54:10 发布

阅读量1.7k

点赞数 7

分类专栏：大模型文章标签： ocr 语言模型 python

本文链接：https://blog.csdn.net/qdmqdtt/article/details/142639422

版权

一.GOT-OCR-2.0模型介绍

二.官方源码地址

三.Huggingface调用GOT Weights实现OCR

一.GOT-OCR-2.0模型介绍

GOT-OCR-2.0是以LVLM大视觉语言模型驱动的OCR识别模型，是一个端到端的通用模型：

1.补充了传统OCR系统需要通过整合多个领域专家网络来完成OCR任务。

2.扩展了基于LVLM的OCR模型的英文场景限制，可以更准确地识别中文场景。

3.模型结构：基于VitDet的预训练编码器---->125M OPT---->预训练的Qwen-0.5B---->Qwen-0.5B解码器

4.训练阶段：

a）VitDet编码器预训练阶段: 使用了大约5M对图像-文本，包括3M个场景文本(英文中文场景各一半)OCR数据和2M个文档OCR数据。

b）联合Qwen-0.5B预训练阶段：使用多种格式数据：普通OCR、Mathpix-markdown格式化数据（数学公式、分子公式、表、Mathpix格式）、更通用的数据（乐谱、几何图形、图表）

c）解码器训练阶段：为了实现细粒度、多页和动态分辨率OCR，使用了不同的数据集。

二.官方源码地址

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

混混子儿

关注关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

AI浩

09-18

1576

传统的OCR系统（OCR-1.0）越来越无法满足人们对智能处理人造光学字符的需求。在本文中，我们将所有人造光学信号（例如，普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型，即GOT，以促进OCR-2.0的到来。GOT拥有5.8亿参数，是一个统一的、优雅的、端到端的模型，由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型，GOT可以在各种OCR任务下处理上述所有“字符”。

CV之OCR：GOT-OCR2.0的简介、安装和使用方法、案例应用之详细攻略

09-21

1万+

CV之OCR：GOT-OCR2.0的简介、安装和使用方法、案例应用之详细攻略目录 GOT-OCR2.0的简介 GOT-OCR2.0的安装和使用方法 GOT-OCR2.0的案例应用 GOT-OCR2.0的简介 GOT-OCR2.0 是一款通用光学字符识别（OCR）理论的官方代码实现，旨在通过一个统一的端到端模型推进 OCR-2.0 的发展。 GOT-OCR2.0 提供了一种新的 OCR 解决方案，整合了最新的技术和理论，以提升文本识别的准确性和效率。该项目是基于 Huggi

3 条评论您还未登录，请先登录后发表或查看评论

【AI实践】个人免费数学老师系列之（三）：题目识别【OCR2.0】

趣谈AI栈

10-28

1215

出发点：承接上一篇【AI实践】个人免费数学老师系列之（二）：自动切题【目标检测】，本篇介绍识别流程的第二步-题目识别OCR。顺带总结科普一下当下火热的大型视觉语言模型（LVLM）、多模态开山之作CLIP等概念。

GOT-OCR2_0部署使用

weixin_49103875的博客

03-22

470

Ubuntu下GOT-OCR2_0部署使用，用来提取文件内容转txt

2.4K star的GOT-OCR2.0：端到端OCR 模型

specssss的博客

09-23

1198

GOT-OCR2.0作为AI 2.0时代的重要产品，通过端到端设计、一体化架构和对多场景复杂内容的识别能力，为用户提供了精准、高效的OCR解决方案。无论是在文档数字化、场景文本识别还是复杂数据处理方面，它都展现出卓越的性能，是开发者和研究人员不可或缺的工具。GOT-OCR2.0是一款新一代的光学字符识别（OCR）技术，标志着人工智能在文本识别领域的重大进步。作为一款开源模型，GOT-OCR2.0不仅支持传统的文本和文档识别，还能够处理乐谱、图表以及复杂的数学公式，为用户提供了更加全面和高效的解决方案。

全能OCR神器GOT-OCR2.0整合包部署教程

09-20

2534

本文提供了关于GOT-OCR2.0项目的安装和使用指南，包括NVIDIA显卡驱动、CUDA工具包和cuDNN的安装步骤，以及如何验证CUDA版本和使用整合包进行简单文本识别的说明。

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

OpenCSG的博客

09-26

3533

GOT-OCR2.0 是阶跃星辰一款新一代的 OCR 模型，致力于解决传统 OCR 系统（OCR-1.0）和当前大规模视觉语言模型（LVLMs）在 OCR 任务中的局限性。作为一款开源模型，GOT-OCR2.0 不仅能够处理标准的文本识别任务，还可以应对复杂的光学字符识别需求，如公式、表格、乐谱、几何图形等复杂结构。通过端到端的统一架构设计，GOT-OCR2.0 实现了更高的精度、效率和适应性。来源：传神社区01 GOT-OCR2.0 的功能与优势。

GOT-OCR2.0:本地部署基于QWen0.5B大模型的强大OCR服务

CITY_OF_MO_GY的博客

10-16

2208

GOT是一个端到端的模型结构，模型由编码器和解码器组成，模型训练分成三个阶段进行；第一阶段，模型的Encoder 主体采用带 local attention的 VITDet 架构，使用小型 OPT-125M 作为 decoder对其喂入大量的数据进行一阶段训练；第二阶段将decoder部分替换为Qwen0.5B，增加多种类的数据进行进一步的训练；第三阶段锁住Encoder部分，对decoder部分进行进一步的训练，最后得到此模型；输入多样性：处理包括文本、公式、表格、图表、乐谱和几何形状在内的各种光学信号。

【从零开始系列】GOT-OCR2.0——多模态通用型OCR（非常具有潜力的开源OCR项目）：项目环境安装配置 + 测试使用

qq_58718853的博客

11-15

5617

本文是多模态通用型OCR模型的环境安装和测试部分

GOT-OCR2: 通用OCR理论：通过统一端到端模型迈向OCR-2.0时代

最新发布

探索人工智能革命，深入算法原理与创新应用，未来科技无限可能。

04-07

1014

传统的OCR系统（OCR-1.0）由于人工光学字符处理的需求不断增加，逐渐无法满足用户需求。本文中，我们将所有人工光学信号（例如：普通文本、数学/分子公式、表格、图表、乐谱，甚至几何形状）统称为“字符”，并提出了通用OCR理论（General OCR Theory）以及一个优秀的模型，命名为GOT，以推动OCR-2.0的到来。GOT模型拥有580M的参数，是一个统一的、优雅的端到端模型，包含一个高压缩编码器和一个长上下文解码器。作为OCR-2.0模型，GOT可以处理上述所有“字符”，并适用于各种OCR任务。

got-ocr2.0的html

03-21

<div id="ocr-result">  ``` ### 三、技术支持途径 5. **联系开发者团队** 通过官方支持邮箱或开发者社区提交文档请求，其端到端架构设计文档可能包含更多技术细节...

从零开始使用GOT-OCR2.0——多模态OCR项目：微调数据集构建 + 训练（解决训练报错，成功实验微调训练）

qq_58718853的博客

12-02

4186

本文记录GOT-OCR解码器（语言模型）进行微调训练的全过程，解决了训练过程中的报错，完成了从搭建数据集到最终训练的全过程测试。

OCR识别小模型：GOT-OCR2

weixin_42357472的博客

09-14

1388

【代码】OCR识别小模型：GOT-OCR2。

GOT - OCR2.0：端到端 OCR 模型，助力处理各类复杂光学字符任务

寻道AI，探索AI无限可能！

10-17

1336

GOT - OCR 2.0 作为一款基于通用 OCR 理论的模型，在结构上比 OCR - 1.0 系统更简单，在纯 OCR 任务上比 LVLMs 更专注，性能优越。它将各种泛 OCR 任务集成到一个模型中，是模型设计、数据工程和应用场景方面的一个有价值的研究方向。当然，GOT - OCR 2.0 也并非完美无缺，目前可能还存在一些有待改进的地方，如中文 OCR 保存成 HTML 显示乱码、表格和数学图表混合的页面解析效果差等。

GOT-OCR2.0：突破性端到端架构与高精度文本识别的技术创新

XianxinMao的博客

01-11

976

GOT-OCR2.0凭借其高度的多功能性和高精度的细粒度识别能力，在OCR技术领域树立了新的标杆。无论是处理自然场景中的文本，还是应对复杂文档结构，GOT-OCR2.0都能高效、精准地完成任务。其先进的技术架构和创新功能不仅提升了文本识别的效率和准确性，还拓展了OCR应用的广度和深度，为各行业的信息处理带来了显著的提升和变革。

端到端的开源OCR模型：GOT-OCR-2.0，支持场景文本、文档、乐谱、图表、数学公式等内容识别！

AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

10-14

3264

尽管GOT模型表现不错，但也存在一些局限，如更多的语言支持，更复杂的几何图，更复杂的表格。OCR-2.0的研究还远的很，GOT也还有不小提升空间（该项目在数据和算力资源上都是非常受限的），正是因为深知GOT以及OCR-2.0的潜力，我们希望通过开源GOT吸引更多的人，放弃VQA，再次投向强感知。都说纯OCR容易背锅，但也正好说明做的不够work，不是吗？

第一个迈向OCR 2.0时代的通用端到端模型GOT！重磅开源！

阿木寺的博客

09-12

1578

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/OCR】交流群添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！Vary团队投稿凹非寺转载自：量子位 | 公众号 QbitAI在AI-2.0时代，...

AI-2.0时代：通用端到端OCR模型GOT挑战多模态大模型

人工智能(AI)技术，大模型技术，深度学习，机器学习，计算机视觉，AI工具实践应用等分享

09-11

508

GOT模型的创新之处在于其高度通用性，无论是场景文本、文档OCR，还是细粒度OCR任务，均能游刃有余，OCR时代只是刚刚开始，开源见下面链接 https://github.com/Ucas-HaoranWei/GOT-OCR2.0 GitHub - Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

OCR Fusion: EasyOCR/Tesseract/PaddleOCR/TrOCR/GOT

daihaoguang的博客

09-28

2759

OCR，光学字符识别）是指对包含文本内容的图像或视频进行处理和识别，并提取其中所包含的的文字及排版信息的过程（摘自维基百科）。根据其应用场景可分为印刷文本识别、手写文本识别、公式文本识别、场景文本识别以及古籍文本识别。举一个实用的例子：想阅读一本电子书，但该书是扫描版的 PDF 文档，具有文件体积大、文字不可选、无法编辑和可读性差的缺点；我们可以借助OCR将文档识别并转换成轻量的 EPUB 格式，并提升阅读体验。有意义的应用场景还有很多，此处不一一列举。最近由于实际需求，对之前和时下流行的OCR。