自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 pdf内容提取神器:MinerU2.1.0本地docker部署及使用(附示例)

以上介绍了pdf文档内容提取工具通过docker本地部署(windows环境)的全部测试过程。经本人实际验证可行,希望能给有需要的朋友提供帮助。有几个关键点:(1)构建镜像。直接下载项目文件后进入docker/golbal文件夹下运行构建镜像指令即可,不需要下载其他Dockerfile文件。(2)手动拉取基础镜像。构建镜像过程中即使用了梯子,基础镜像lmsysorg/sglang:v0.4.8.post1-cu126一步也很可能会卡住,可以手动拉取,然后再次运行构建镜像指令。

2025-07-08 11:52:16 8220 6

原创 构建完全本地化的pdf文档内容高质量提取方法(附代码)

本地提取pdf文档内容一般可以使用fitz、pdfplumber等python库,或者Tessseract-OCR,这些工具简单易用,但是提取的效果有一定的局限。对于提取主要由文字组成的一般性的pdf文件内容效果不错,但是面对科技文献、书籍等包含有大量图片图表、表格、公式信息的文件时,很多关键信息无法提取。比如,公式输出为乱码,图片信息无法表达,表格内容的输出效果不理想等。这对于需要将pdf文档内容精确和全面提取,以构建高质量向量数据、大模型微调训练语料等数据进一步应用带来了不便。

2025-04-03 17:57:35 1070

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除