1. 环境准备
-
操作系统:支持 Windows/macOS/Linux。
-
Python 版本:确保已安装 Python 3.7 或更高版本。
-
包管理工具:使用
pip
(Python 自带)。
安装环境:
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
确保您已将 V2 权重下载到 weights 文件夹中(确保标题权重文件夹名为 icon_caption_florence)。如果没有,请使用以下命令下载它们:
rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
2. 安装 OmniParser V2
-
直接在 PyPI 网站搜索确认包名:
Client Challenge
3. 安装依赖项(OCR 支持)
如果需要解析图片或扫描版 PDF,需安装 Tesseract OCR:
-
Windows:
下载安装包:Tesseract Installer
安装时勾选 简体中文 等语言包。 -
macOS:
brew install tesseract
-
Linux (Ubuntu/Debian):
sudo apt install tesseract-ocr tesseract-ocr-chi-sim
4. 验证安装
import omniparser
print(omniparser.__version__) # 应输出版本号如 2.0.0
5. 基础使用示例
示例 1:解析 PDF 文件
from omniparser import OmniParser, PdfParser
# 初始化解析器
parser = OmniParser()
# 提取 PDF 文本
pdf_text = parser.parse_file("document.pdf", parser_type=PdfParser)
print(pdf_text)
示例 2:解析图片中的文字(OCR)
from omniparser import ImageParser
# 使用 OCR 解析图片
image_text = parser.parse_file("image.png", parser_type=ImageParser)
print(image_text)
# 指定多语言(如中英文混合)
image_text_cn = parser.parse_file("image.png", parser_type=ImageParser, lang="chi_sim+eng")
示例 3:解析 Excel 文件
from omniparser import ExcelParser
# 提取 Excel 数据
excel_data = parser.parse_file("data.xlsx", parser_type=ExcelParser)
for row in excel_data:
print(row)
6. 高级配置
自定义 Tesseract 路径(Windows)
from omniparser import ImageParser
# 手动指定 Tesseract 路径
parser = OmniParser(
ocr_config={
"tesseract_path": "C:/Program Files/Tesseract-OCR/tesseract.exe"
}
)
批量处理文件
import os
folder = "documents/"
for filename in os.listdir(folder):
filepath = os.path.join(folder, filename)
result = parser.parse_file(filepath)
print(f"Processed {filename}: {result[:50]}...") # 打印前50字符
7. 常见问题解决
-
TesseractNotFoundError
-
确保 Tesseract 已安装且路径正确。
-
在代码中通过
ocr_config
参数手动指定路径。
-
-
文件格式不支持
-
检查文件类型是否在支持列表中(PDF/Image/Excel/CSV/JSON 等)。
-
-
中文识别错误
-
安装中文语言包,并在解析时指定
lang="chi_sim"
。
-