Parsr文档解析工具API使用指南
前言
Parsr是一款强大的文档解析工具,能够将PDF、Word等文档转换为结构化数据。本文将详细介绍如何使用Parsr提供的RESTful API进行文档解析操作。通过本指南,您将掌握从文档上传到结果获取的完整流程。
API基础概念
1. RESTful设计
Parsr API遵循REST架构风格,所有操作都通过HTTP请求完成。API端点以/api
为前缀,支持版本控制:
/api/v1.0
:使用1.0版本API/api/v1
:使用最新的1.x版本API/api
:使用最新版本API
2. 异步处理机制
Parsr采用异步处理模式,文档上传后会进入处理队列,用户需要通过队列ID查询处理状态和获取结果。
核心API使用流程
1. 上传文档(POST /document)
这是解析流程的第一步,需要发送文档文件及可选配置。
请求示例(cURL)
curl -X POST \
http://localhost:3001/api/v1/document \
-H 'Content-Type: multipart/form-data' \
-F 'file=@/path/to/file.pdf;type=application/pdf' \
-F 'config=@/path/to/config.json;type=application/json'
响应状态
- 202 Accepted:文档已接受处理,返回队列ID
- 415 Unsupported Media Type:不支持的文件格式
2. 查询处理状态(GET /queue/{id})
使用返回的队列ID查询文档处理进度。
请求示例
curl -X GET \
http://localhost:3001/api/v1/queue/00cafe4463b9c12aac145b3ee8f00d
响应状态
- 200 OK:处理中,返回进度信息
- 201 Created:处理完成,返回结果资源链接
- 404 Not Found:无效的队列ID
- 500 Internal Server Error:服务器内部错误
3. 获取解析结果
Parsr支持多种输出格式:
3.1 JSON/Markdown/Text格式
curl -X GET \
http://localhost:3001/api/v1/json/00cafe4463b9c12aac145b3ee8f00d
JSON输出包含文档元数据、字体信息和页面内容等结构化数据。
3.2 CSV表格数据
获取CSV结果需要两步:
- 获取表格列表:
curl -X GET \
http://localhost:3001/api/v1/csv/00cafe4463b9c12aac145b3ee8f00d
- 获取特定表格:
curl -X GET \
http://localhost:3001/api/v1/csv/00cafe4463b9c12aac145b3ee8f00d/1/1
3.3 下载结果文件
在请求URL后添加?download=1
参数可直接下载结果文件。
服务器配置查询
Parsr API还提供服务器配置查询功能:
- 获取默认配置:
curl -X GET http://localhost:3001/api/v1/default-config
- 查询可用模块列表:
curl -X GET http://localhost:3001/api/v1/modules
- 获取模块配置详情:
curl -X GET http://localhost:3001/api/v1/module-config/table-detection
- 检查依赖安装情况:
curl -X GET http://localhost:3001/api/v1/check-installation
最佳实践建议
- 错误处理:始终检查API响应状态码,特别是处理大文件时
- 配置优化:根据文档类型调整配置参数,可显著提高解析精度
- 批量处理:对于大量文档,建议实现队列管理系统
- 结果缓存:解析结果可缓存以避免重复处理
通过本指南,您应该已经掌握了Parsr API的核心使用方法。该工具强大的文档解析能力可以广泛应用于文档数字化、内容分析等多种场景。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考