PDFFigures 2.0 使用教程

郦祺嫒Amiable

于 2025-04-15 11:40:46 发布

阅读量571

点赞数 17

本文链接：https://blog.csdn.net/gitblog_00302/article/details/147246245

版权

PDFFigures 2.0 使用教程

pdffigures2 Given a scholarly PDF, extract figures, tables, captions, and section titles. 项目地址: https://gitcode.com/gh_mirrors/pd/pdffigures2

1. 项目介绍

PDFFigures 2.0 是一个基于 Scala 的项目，旨在从学术论文 PDF 文档中提取图形、表格、标题和章节标题。该项目特别关注计算机科学领域的文档。PDFFigures 2.0 的输出为一个包含多个 'Figure' 对象的列表，每个对象中包含了图形的位置、文本内容、标题、标题的边框以及图形的类型（图形或表格）。

2. 项目快速启动

首先，您需要克隆项目仓库并使用 sbt（Scala Build Tool）来运行项目。

git clone https://github.com/allenai/pdffigures2.git
cd pdffigures2
sbt

运行可视化 CLI 工具

要预览 PDF 文档中的提取结果，可以使用可视化 CLI 工具。以下是如何运行的命令：

sbt "runMain org.allenai.pdffigures2.FigureExtractorVisualizationCli /path/to/pdf"

运行批量 CLI 工具

如果您想要处理多个 PDF 文件并保存图像，可以使用批量 CLI 工具。以下是如何运行的命令：

sbt "runMain org.allenai.pdffigures2.FigureExtractorBatchCli /path/to/pdf_directory/ -s stat_file.json -m /figure/image/output/prefix -d /figure/data/output/prefix"