开源项目 Marker 使用教程
1. 项目的目录结构及介绍
Marker 项目的目录结构如下:
marker/
├── benchmark.py
├── data/
├── docs/
├── marker/
│ ├── __init__.py
│ ├── settings.py
│ ├── ...
├── poetry.lock
├── pyproject.toml
├── README.md
└── ...
benchmark.py
: 用于性能基准测试的脚本。data/
: 存放测试数据和参考数据的目录。docs/
: 存放项目文档的目录。marker/
: 核心代码目录,包含项目的各个模块和配置文件。__init__.py
: 初始化文件。settings.py
: 配置文件。...
: 其他相关模块和文件。
poetry.lock
和pyproject.toml
: 用于项目依赖管理的文件。README.md
: 项目说明文档。
2. 项目的启动文件介绍
Marker 项目的启动文件主要是 benchmark.py
,它用于运行性能基准测试。启动该文件的命令如下:
python benchmark.py data/pdfs data/references report.json --nougat
该命令会运行 Marker 项目并生成性能报告。
3. 项目的配置文件介绍
Marker 项目的主要配置文件是 marker/settings.py
。该文件包含了项目的各种配置选项,例如:
TORCH_DEVICE
: 指定使用的设备(如cuda
或cpu
)。INFERENCE_RAM
: 指定 GPU 的 VRAM 大小。
你可以通过环境变量来覆盖这些默认设置。例如:
export TORCH_DEVICE=cuda
export INFERENCE_RAM=16
这些配置选项可以根据你的具体需求进行调整,以优化项目的性能和资源使用。