当前开源的非常优秀OCR工具技术汇总

云博士的AI课堂

已于 2024-11-05 17:11:47 修改

阅读量2.3k

点赞数 12

分类专栏：大模型技术开发与实践哈佛博后带你玩转机器学习文章标签： orc 大模型文字识别 pdf识别图片识别

于 2024-10-17 08:39:02 首次发布

本文链接：https://blog.csdn.net/l35633/article/details/142996532

版权

哈佛博后带你玩转机器学习同时被 2 个专栏收录

262 篇文章

订阅专栏

大模型技术开发与实践

257 篇文章

订阅专栏

当前开源的优秀OCR工具技术：

1 paddle ocr

地址：https://github.com/PaddlePaddle/PaddleOCR

简介：PaddleOCR 是由百度 PaddlePaddle 团队开发的开源文字识别（OCR）工具，支持从图片中识别多种语言的文本信息。其核心特点包括高效的文本检测和识别模型、多语言支持、易于使用的API接口，以及通过PaddlePaddle深度学习框架进行训练和推理。PaddleOCR 提供了轻量级和高精度模型，适用于移动设备和服务器端的应用场景，广泛用于文件扫描、文本翻译、票据识别等领域

2 GOT-OCR2.0

地址 GitHub - Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

简介：GOT-OCR2.0 是一款基于生成式预训练模型的高效文字识别（OCR）系统，致力于提高文本检测和识别的准确性和速度。它通过结合先进的视觉和语言模型，实现对复杂场景和多种语言的高精度识别。GOT-OCR2.0 强调在低资源情况下的高效性，适合处理复杂背景、扭曲文本以及少见字体等挑战性任务。该系统广泛应用于文档扫描、票据处理和智能办公等领域，提供了便捷的OCR解决方案。

3 MinerU

地址：https://github.com/opendatalab/MinerU/tree/master

简介：MinerU 是一个开源项目，专注于 PDF 文件的处理和 OCR（光学字符识别）技术的应用。它提供了丰富的工具和教程，帮助用户从 PDF 中提取文本并进行分析，特别是在文档扫描和数据挖掘任务中。MinerU 通过 OCR 技术将不可编辑的 PDF 转化为可搜索和处理的文本，适用于教育和研究领域的数据处理和文本挖掘需求。

4 Tesseract OCR

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

简介: Tesseract 是目前最先进、最广泛使用的开源 OCR 引擎之一，由 Google 维护。它完全用 C++ 编写，支持超过 100 种语言。可以针对不同类型文字进行再训练。

5 Qwen-VL多模态大模型

地址：GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

6 Qwen2-VL多模态大模型

Blog:https://qwenlm.github.io/blog/qwen2-vl/

GitHub:https://github.com/QwenLM/Qwen2-VL

HF:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

ModelScope:https://modelscope.cn/organizat

简介：Qwen-2-VL 是阿里巴巴推出的多模态大模型，具备强大的视觉-语言理解能力，广泛应用于OCR（光学字符识别）领域。它结合视觉与文本信息，通过深度学习模型精确识别图像中的文字，能够高效处理复杂的文字布局和多语言场景。Qwen-2-VL在OCR任务中的优势在于其强大的图像理解和上下文关联能力，适用于各类文档扫描、票据处理和信息抽取等应用场景

7 Llam3.2多模态大模型

地址：https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

简介：针对 OCR 功能，LLaMA3.2 多模态大模型利用其强大的视觉-语言交互能力，能够精准识别图像中的文本信息。通过深度学习算法，它在复杂文本和多语言环境下表现出色，适用于文档处理、证件识别等场景，帮助快速实现高效的文字提取与理解。

在线体验：https://www.meta.ai/