Parsr文档解析工具API使用指南

Parsr文档解析工具API使用指南

Parsr Transforms PDF, Documents and Images into Enriched Structured Data Parsr 项目地址: https://gitcode.com/gh_mirrors/pa/Parsr

前言

Parsr是一款强大的文档解析工具,能够将PDF、Word等文档转换为结构化数据。本文将详细介绍如何使用Parsr提供的RESTful API进行文档解析操作。通过本指南,您将掌握从文档上传到结果获取的完整流程。

API基础概念

1. RESTful设计

Parsr API遵循REST架构风格,所有操作都通过HTTP请求完成。API端点以/api为前缀,支持版本控制:

  • /api/v1.0:使用1.0版本API
  • /api/v1:使用最新的1.x版本API
  • /api:使用最新版本API

2. 异步处理机制

Parsr采用异步处理模式,文档上传后会进入处理队列,用户需要通过队列ID查询处理状态和获取结果。

核心API使用流程

1. 上传文档(POST /document)

这是解析流程的第一步,需要发送文档文件及可选配置。

请求示例(cURL)
curl -X POST \
  http://localhost:3001/api/v1/document \
  -H 'Content-Type: multipart/form-data' \
  -F 'file=@/path/to/file.pdf;type=application/pdf' \
  -F 'config=@/path/to/config.json;type=application/json'
响应状态
  • 202 Accepted:文档已接受处理,返回队列ID
  • 415 Unsupported Media Type:不支持的文件格式

2. 查询处理状态(GET /queue/{id})

使用返回的队列ID查询文档处理进度。

请求示例
curl -X GET \
  http://localhost:3001/api/v1/queue/00cafe4463b9c12aac145b3ee8f00d
响应状态
  • 200 OK:处理中,返回进度信息
  • 201 Created:处理完成,返回结果资源链接
  • 404 Not Found:无效的队列ID
  • 500 Internal Server Error:服务器内部错误

3. 获取解析结果

Parsr支持多种输出格式:

3.1 JSON/Markdown/Text格式
curl -X GET \
  http://localhost:3001/api/v1/json/00cafe4463b9c12aac145b3ee8f00d

JSON输出包含文档元数据、字体信息和页面内容等结构化数据。

3.2 CSV表格数据

获取CSV结果需要两步:

  1. 获取表格列表:
curl -X GET \
  http://localhost:3001/api/v1/csv/00cafe4463b9c12aac145b3ee8f00d
  1. 获取特定表格:
curl -X GET \
  http://localhost:3001/api/v1/csv/00cafe4463b9c12aac145b3ee8f00d/1/1
3.3 下载结果文件

在请求URL后添加?download=1参数可直接下载结果文件。

服务器配置查询

Parsr API还提供服务器配置查询功能:

  1. 获取默认配置:
curl -X GET http://localhost:3001/api/v1/default-config
  1. 查询可用模块列表:
curl -X GET http://localhost:3001/api/v1/modules
  1. 获取模块配置详情:
curl -X GET http://localhost:3001/api/v1/module-config/table-detection
  1. 检查依赖安装情况:
curl -X GET http://localhost:3001/api/v1/check-installation

最佳实践建议

  1. 错误处理:始终检查API响应状态码,特别是处理大文件时
  2. 配置优化:根据文档类型调整配置参数,可显著提高解析精度
  3. 批量处理:对于大量文档,建议实现队列管理系统
  4. 结果缓存:解析结果可缓存以避免重复处理

通过本指南,您应该已经掌握了Parsr API的核心使用方法。该工具强大的文档解析能力可以广泛应用于文档数字化、内容分析等多种场景。

Parsr Transforms PDF, Documents and Images into Enriched Structured Data Parsr 项目地址: https://gitcode.com/gh_mirrors/pa/Parsr

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邱弛安

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值