SciPDF Parser 项目安装与使用教程
scipdf_parser 项目地址: https://gitcode.com/gh_mirrors/sc/scipdf_parser
1. 项目目录结构及介绍
scipdf_parser/
├── example_data/
│ └── ...
├── figures/
│ └── ...
├── scipdf/
│ └── ...
├── .gitignore
├── LICENSE.txt
├── README.md
├── requirements.txt
├── serve_grobid.sh
└── setup.py
目录结构说明
- example_data/: 包含示例PDF文件,用于测试和演示解析功能。
- figures/: 包含从PDF中提取的图表文件。
- scipdf/: 项目的主要代码目录,包含PDF解析的核心逻辑。
- .gitignore: Git忽略文件,指定哪些文件和目录不应被版本控制。
- LICENSE.txt: 项目许可证文件,采用MIT许可证。
- README.md: 项目说明文件,包含项目的基本信息和使用指南。
- requirements.txt: 项目依赖文件,列出了项目运行所需的Python包。
- serve_grobid.sh: 启动GROBID服务的脚本文件。
- setup.py: 项目的安装配置文件,用于定义项目的元数据和依赖。
2. 项目启动文件介绍
serve_grobid.sh
serve_grobid.sh
是一个Bash脚本,用于启动GROBID服务。GROBID是一个用于解析科学文献的工具,SciPDF Parser依赖于GROBID来提取PDF中的内容。
使用方法
bash serve_grobid.sh
该脚本默认在8070端口启动GROBID服务。启动后,可以使用SciPDF Parser的解析功能。
3. 项目配置文件介绍
setup.py
setup.py
是Python项目的标准安装配置文件,用于定义项目的元数据、依赖关系和安装选项。
主要内容
from setuptools import setup, find_packages
setup(
name="scipdf_parser",
version="0.5.2",
packages=find_packages(),
install_requires=[
"spacy>=2.3.0",
"requests>=2.24.0",
"beautifulsoup4>=4.9.1",
"lxml>=4.5.0",
"pandas>=1.1.0",
"Pillow>=7.2.0",
"PyMuPDF>=1.18.9",
"scipy>=1.5.2",
"numpy>=1.19.1",
"tqdm>=4.48.2",
],
classifiers=[
"Programming Language :: Python :: 3",
"License :: OSI Approved :: MIT License",
"Operating System :: OS Independent",
],
package_data={
'scipdf': ['pdf/pdffigures2/*jar']
},
scripts=['serve_grobid.sh']
)
配置说明
- name: 项目名称,这里是
scipdf_parser
。 - version: 项目版本号,当前版本为
0.5.2
。 - packages: 使用
find_packages()
自动发现并包含所有Python包。 - install_requires: 列出了项目运行所需的Python包及其版本要求。
- classifiers: 定义了项目的分类信息,包括编程语言、许可证和操作系统。
- package_data: 包含项目中需要打包的额外数据文件,如
pdffigures2
的JAR文件。 - scripts: 包含项目提供的脚本文件,如
serve_grobid.sh
。
通过以上配置,用户可以使用pip install .
命令来安装SciPDF Parser项目。
scipdf_parser 项目地址: https://gitcode.com/gh_mirrors/sc/scipdf_parser