Umi-OCR 安装与配置完全指南
项目基础介绍
Umi-OCR 是一个开源且免费的离线OCR(光学字符识别)软件,专为追求便捷高效的用户提供服务。它支持Windows7 x64及Linux x64操作系统,主打特性是无需网络即可运作,适合截图识别、批量图片处理、PDF文档识别,并具备排除水印、页眉页脚等功能。此外,它还支持生成和扫描二维码,内置多国语言识别库,让用户能以多种语言轻松识别文字。项目主要采用Python作为编程语言,并结合Qt框架以及特定的OCR引擎(如PaddleOCR或RapidOCR)实现其核心功能。
关键技术和框架
编程语言
- Python: 核心逻辑实现的语言,因其易用性和丰富的库支持成为首选。
- QML: 用于构建用户界面,使得软件具有良好的视觉效果和交互体验。
- PyStand: 特定定制的运行环境框架,确保离线执行的稳定性。
OCR引擎
- PaddleOCR 和 RapidOCR: 提供高效且精准的离线OCR能力。
- 多语言识别: 支持通过插件系统集成更多语言识别。
交互与扩展
- 命令行与HTTP接口: 方便开发者远程调用或集成至其他应用。
- 国际化: 支持界面多语言,便于全球用户的使用。
安装和配置步骤
准备工作
- 系统需求: 确保你的计算机运行的是Windows7 x64或更高版本的Windows,或者Linux x64系统。
- Python环境: 安装Python 3.6及以上版本,因为项目的运行基于Python。
- Git: 若从GitHub克隆代码,需安装Git客户端。
获取项目代码
-
克隆代码: 打开命令行或终端,执行以下命令克隆Umi-OCR仓库到本地。
git clone https://github.com/hiroi-sora/Umi-OCR.git
-
依赖项安装: 进入项目目录,并使用pip安装所需的Python依赖。
cd Umi-OCR pip install -r requirements.txt
配置和运行
Windows用户
- 对于Windows用户,项目提供了可执行文件。若不想编译,可以直接前往最新发布下载预编译的
.exe
文件。 - 解压下载的文件,运行
Umi-OCR.exe
即可启动软件。
Linux用户
- 编译前确保你的系统已安装必要的编译工具和依赖。
- 执行以下命令安装必要的编译工具(以Ubuntu为例):
sudo apt-get update sudo apt-get install -y build-essential python3-dev qtbase5-dev libqt5svg5-dev
- 然后,运行项目提供的Shell脚本来编译和启动(假设你已经在项目根目录):
./umi-ocr.sh
设置与使用
- 首次运行: Umi-OCR会根据系统语言自动选择界面语言。若需更改,在软件内找到“全局设置”>“语言”进行调整。
- OCR引擎选择: 在“全局设置”中可以根据需要切换不同的OCR插件。
- 功能使用: 软件提供了直观的操作指南,比如截图OCR、批量处理、PDF文档识别等,遵循软件内部的提示操作即可。
至此,您已成功安装并准备开始使用Umi-OCR。如果遇到任何问题,记得查阅项目GitHub上的文档或者提交“Issue”寻求帮助。祝您使用愉快!