自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

kymowu的博客

原创 pdf内容提取神器：MinerU2.1.0本地docker部署及使用（附示例）

以上介绍了pdf文档内容提取工具通过docker本地部署（windows环境）的全部测试过程。经本人实际验证可行，希望能给有需要的朋友提供帮助。有几个关键点：（1）构建镜像。直接下载项目文件后进入docker/golbal文件夹下运行构建镜像指令即可，不需要下载其他Dockerfile文件。（2）手动拉取基础镜像。构建镜像过程中即使用了梯子，基础镜像lmsysorg/sglang:v0.4.8.post1-cu126一步也很可能会卡住，可以手动拉取，然后再次运行构建镜像指令。

2025-07-08 11:52:16 8220 6

原创构建完全本地化的pdf文档内容高质量提取方法(附代码)

本地提取pdf文档内容一般可以使用fitz、pdfplumber等python库，或者Tessseract-OCR，这些工具简单易用，但是提取的效果有一定的局限。对于提取主要由文字组成的一般性的pdf文件内容效果不错，但是面对科技文献、书籍等包含有大量图片图表、表格、公式信息的文件时，很多关键信息无法提取。比如，公式输出为乱码，图片信息无法表达，表格内容的输出效果不理想等。这对于需要将pdf文档内容精确和全面提取，以构建高质量向量数据、大模型微调训练语料等数据进一步应用带来了不便。

2025-04-03 17:57:35 1070

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄17年

2
原创

56
点赞

82
收藏

76
粉丝

关注

私信

热门文章

最新评论

pdf内容提取神器：MinerU2.1.0本地docker部署及使用（附示例）
天命者: 我感觉离线环境也可以，但是需要你提前把模型下载好，然后安装到指定位置就可以
pdf内容提取神器：MinerU2.1.0本地docker部署及使用（附示例）
菜鸟的追梦旅行: 博主您好，请问离线环境，能否按照你文章的方式，使用docker部署mineru
pdf内容提取神器：MinerU2.1.0本地docker部署及使用（附示例）
天命者: 我把那个38-41的参数全部修改为ture了，但是还是输出markdown，我想让它输出全部内容，但是不知道代码怎么写。第二张运行的方式也试过了，但是因为太多pdf了，dockers报错，掐死进程了[code=python] with open(pdf_file, "rb") as f: files = [ ('files', (pdf_file.name, f, 'application/pdf')), ('parse_method', (None, 'auto')), ('is_json_md_dump', (None, 'true')), ('output_dir', (None, '/tmp/output')), ('return_content_list', (None, 'ture')), ('return_layout', (None, 'ture')), ('return_info', (None, 'ture')), ('return_images', (None, 'ture')), ] headers = { 'accept': 'application/json', } # 保存 md_path = output_folder / f"{pdf_file.stem}.md" with open(md_path, "w", encoding="utf-8") as md_file: md_file.write(md_cleaned) [/code] print(f"📄 已保存 Markdown 文件：{md_path}") 就是这里的保存，我不会弄，我的想法是把包括list、图片等都输出出来，所以麻烦大神看看了
pdf内容提取神器：MinerU2.1.0本地docker部署及使用（附示例）
天命者: 好的，谢谢你
pdf内容提取神器：MinerU2.1.0本地docker部署及使用（附示例）
kymowu: 按照文档应该是把38 －41行的参数改为ture 就可以，你可以试一试。如果不行可以用第二种启动方式下的运行命令，返回的是所有结果，包括list、图片等，这个是肯定可以的。

提示

确定要删除当前文章？

取消删除