解析技术调研:
技术项 | 源代码·官方说明 | 优/劣势 | 补充 | |
---|---|---|---|---|
1 | VikParuchuri/marker (Star 14.9K) | https://github.com/VikParuchuri/marker?tab=readme-ov-file |
| 经过测试发现: 官方文档很粗糙,依赖版本不明确,存在兼容问题 需要仔细比各个依赖的版本号 因为marker-pdf 针对不同版本的代码结构变化很大。 目前探索出的稳定版本: ==》注意: marker-pdf 和 pdfText版本的搭配 0.2.6 《==》0.3.7
测试机器带不动~ |
2 | breezedeus/Pix2Text (Star 1.7K) | https://github.com/breezedeus/pix2text Examples en - Pix2Text |
|
|
3 | opendatalab/PDF-Extract-Kit (Star 3.7K) | https://github.com/opendatalab/PDF-Extract-Kit |
| |
4 | lxulxu / pdf-to-markdown (Star 44) | https://github.com/lxulxu/pdf-to-markdown |
| 通过PyMuPDF和PADDLE OCR提取PDF中文本、图片和表格创建markdown,基于Python 3.10 64-bit。 安装依赖
命令行参数可通过
例如 限制
……(其他待发现问题) |
5 | pymupdf4llm + pytesseract(ocr) | 自定义组合模式-✅ |
| PyMuPDF的高级封装版本 还有其他基于模型的ocr能力部署难度大,暂不集成,比如:surya-ocr |
最后采用:
pymupdf4llm + pytesseract(ocr) 模式,其他方案有合适条件再补充测试~