OCRopus：开源文档分析工具

劳泉文Luna

于 2025-04-20 07:01:14 发布

阅读量408

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00070/article/details/147359024

版权

OCRopus：开源文档分析工具

DUP-ocropy 项目地址: https://gitcode.com/gh_mirrors/du/DUP-ocropy

1. 项目介绍

OCRopus是一套文档分析程序，它不是一套完整的OCR（光学字符识别）系统，但提供了用于文档识别的核心工具。OCRopus包括文本识别脚本、地面真实编辑和校正工具、错误率测量、混淆矩阵确定等功能。OCRopus通常会在出错时打印堆栈跟踪和错误信息，但这并不一定表示存在问题。

2. 项目快速启动

环境准备

首先，确保您的系统中安装了必要的依赖项。对于Ubuntu系统，您可以通过以下命令安装：

sudo apt-get install $(cat PACKAGES)

安装OCRopus

您可以选择以下任一方法安装OCRopus：

系统安装：

wget -nd https://github.com/zuphilip/ocropy-models/raw/master/en-default.pyrnn.gz
mv en-default.pyrnn.gz models/
sudo python setup.py install

Python虚拟环境：

virtualenv ocropus_venv/
source ocropus_venv/bin/activate
pip install -r requirements.txt
wget -nd https://github.com/zuphilip/ocropy-models/raw/master/en-default.pyrnn.gz
mv en-default.pyrnn.gz models/
python setup.py install

Conda环境：

conda create -n ocropus_env python=2.7
conda activate ocropus_env
conda install --file requirements.txt
wget -nd https://github.com/zuphilip/ocropy-models/raw/master/en-default.pyrnn.gz
mv en-default.pyrnn.gz models/
python setup.py install

测试OCRopus

安装完成后，运行以下命令测试OCRopus：

./run-test

3. 应用案例和最佳实践

以下是一个使用OCRopus识别文本的基本流程：

二值化：

./ocropus-nlbin input_image.png -o output_folder

页面布局分析：

./ocropus-gpageseg 'output_folder/?????.bin.png'

文本行识别（使用四个核心，以Fraktur模型为例）：

./ocropus-rpred -Q 4 -m models/fraktur.pyrnn.gz 'output_folder/????/??????.bin.png'

生成HTML输出：

./ocropus-hocr 'output_folder/?????.bin.png' -o output.html

查看输出：

firefox output.html

请注意，当前训练的模型可能无法很好地处理全大写文本、某些特殊符号、打字机字体以及上下标。

4. 典型生态项目

OCRopus的生态系统中包括了一些相关的项目，如CLSTM（一个基于C++的文本行识别器），以及使用深度学习和GPU计算的新布局分析方法和文本行跟踪机制。这些项目和工具旨在进一步扩展OCRopus的功能和应用范围。

DUP-ocropy 项目地址: https://gitcode.com/gh_mirrors/du/DUP-ocropy