- 博客(2)
- 收藏
- 关注
原创 pdf内容提取神器:MinerU2.1.0本地docker部署及使用(附示例)
以上介绍了pdf文档内容提取工具通过docker本地部署(windows环境)的全部测试过程。经本人实际验证可行,希望能给有需要的朋友提供帮助。有几个关键点:(1)构建镜像。直接下载项目文件后进入docker/golbal文件夹下运行构建镜像指令即可,不需要下载其他Dockerfile文件。(2)手动拉取基础镜像。构建镜像过程中即使用了梯子,基础镜像lmsysorg/sglang:v0.4.8.post1-cu126一步也很可能会卡住,可以手动拉取,然后再次运行构建镜像指令。
2025-07-08 11:52:16
8220
6
原创 构建完全本地化的pdf文档内容高质量提取方法(附代码)
本地提取pdf文档内容一般可以使用fitz、pdfplumber等python库,或者Tessseract-OCR,这些工具简单易用,但是提取的效果有一定的局限。对于提取主要由文字组成的一般性的pdf文件内容效果不错,但是面对科技文献、书籍等包含有大量图片图表、表格、公式信息的文件时,很多关键信息无法提取。比如,公式输出为乱码,图片信息无法表达,表格内容的输出效果不理想等。这对于需要将pdf文档内容精确和全面提取,以构建高质量向量数据、大模型微调训练语料等数据进一步应用带来了不便。
2025-04-03 17:57:35
1070
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅