Marker：PDF转Markdown快速准确工具安装配置指南

最新推荐文章于 2025-05-06 01:32:08 发布

侯秋婉

最新推荐文章于 2025-05-06 01:32:08 发布

阅读量2.2k

点赞数 7

本文链接：https://blog.csdn.net/gitblog_09316/article/details/142223850

版权

Marker：PDF转Markdown快速准确工具安装配置指南

项目地址:https://gitcode.com/gh_mirrors/ma/marker

项目基础介绍与编程语言

Marker 是一个开源项目，旨在将PDF文档迅速且精准地转换成Markdown格式。它特别适用于书籍和科学论文等类型文档的转换，并支持所有语言。该工具采用一系列深度学习模型来处理文本提取、页面布局检测、文本清理和格式化等工作。Marker基于Python开发，利用PyTorch作为其核心计算库，同时在有需要时通过OCR技术增强文本识别能力。

关键技术和框架

技术要点:

深度学习模型：用于文本提取与分析。
OCR（Optical Character Recognition）：包括Surya和Tesseract作为可选的OCR引擎，用于提升对非扫描文本或模糊文字的识别。
多语言支持：自动识别并处理不同语言的文档。
GPU/CPU/MPS支持：允许用户根据硬件配置选择最佳运行环境。

框架与依赖：

PyTorch：用于构建和训练深度学习模型。
Streamlit（可选）：用于创建交互式应用界面。
OCRMyPDF（可选）：增强OCR功能，特别是对于CPU环境。

安装与配置详细步骤

准备工作

确保你的系统满足以下条件：

Python 3.9或更高版本。
PyTorch：请根据你的系统配置安装合适版本，尤其是GPU用户需确保CUDA兼容性。
(可选) OCRMyPDF：如果计划使用额外的OCR功能。

步骤一：安装Python和PyTorch

首先，安装最新版Python 3.9以上。接着，在命令行中安装PyTorch：

pip install torch torchvision

对于CPU环境，若默认安装了GPU版本的PyTorch失败，需指定安装CPU版本：

pip install torch==1.10.1+cpu torchvision==0.11.2+cpu torchaudio===0.10.1+cpu -f https://download.pytorch.org/whl/lts/1.10/torch_lts.html

步骤二：安装Marker

接下来，安装Marker及其依赖：

pip install marker-pdf

如果你想要使用OCRMyPDF作为OCR后端，执行以下命令：

pip install marker-pdf ocrmypdf

配置环境

编辑marker/settings.py或通过设置环境变量来调整配置。
- TORCH_DEVICE: 自动检测，默认情况下，但可以通过环境变量调整，如TORCH_DEVICE=cuda指定使用GPU。
- OCR_ENGINE: 默认使用Surya，更注重准确性，但CPU上较慢；可通过设置为ocrmypdf以提高速度（需先安装OCRMyPDF）。

使用说明

单个文件转换

marker_single /path/to/yourfile.pdf /path/to/output/folder --langs "zh,en"

参数解释：

/path/to/yourfile.pdf: 要转换的PDF文件路径。
/path/to/output/folder: 输出Markdown文件的目录。
--langs: 可选，定义文档语言，逗号分隔，例如“zh,en”。

多文件批量转换

对于多文件转换，将单个文件路径替换为输入文件夹路径：

marker /path/to/input/folder /path/to/output/folder --workers 4

这里的--workers指定了并发处理的PDF文件数量。

运行交互式应用（可选）

pip install streamlit
streamlit run marker_gui.py

此命令将启动一个Web界面，让你能够上传PDF并查看转换结果。

至此，您已成功安装并基本配置了Marker项目，可以开始探索如何将PDF文档高效转化为Markdown格式了。记得根据实际需求调整配置，以达到最优的转换效果。

marker Convert PDF to markdown quickly with high accuracy 项目地址: https://gitcode.com/gh_mirrors/ma/marker