通用 PDF OCR 到 Word API 数据接口

通用 PDF OCR 到 Word API 数据接口

文件处理,OCR,PDF 高可用图像识别引擎,基于机器学习,超精准识别率。

gugudata_api_cover

1. 产品功能

  • 通用识别接口;
  • 支持中英文等多语言字符混合识别;
  • formdata 格式 PDF 文件流传参;
  • 基于机器学习不断提高的识别率;
  • 输出 Word 文件永久 CDN 存储;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/pdf2word

接口地址: https://api.gugudata.com/imagerecognition/pdf2word?appkey={{appkey}}

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/imagerecognition/pdf2word?appkey={{appkey}}

数据预览: https://www.gugudata.com/preview/pdf2word

接口测试: https://api.gugudata.com/imagerecognition/pdf2word/demo

3. 请求参数

参数名参数类型是否必须默认值备注
pdffilefileYOUR_VALUEformdata 文件流

4. 返回参数

参数名参数类型备注
DataStatus.StatusCodeint接口返回状态码
DataStatus.StatusDescriptionstring接口返回状态说明
DataStatus.ResponseDateTimestring接口数据返回时间
DataStatus.DataTotalCountint此条件下的总数据量,一般用于分页计算
Datastring转换后的 Word 文档地址,咕咕数据同时提供永久 CDN 存储
如果需要通过OCR(光学字符识别)来批量将PDF文件转换为Word文件,可以使用Python中的PyPDF2库和pytesseract库来实现。以下是一个基本的示例代码: ```python import os import pytesseract from PIL import Image from pdf2image import convert_from_path from docx import Document # 设置OCR引擎和语言 pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" tessdata_dir_config = '--tessdata-dir "C:\\Program Files\\Tesseract-OCR\\tessdata"' # 设置PDF文件路径和输出Word文件路径 pdf_path = "input.pdf" output_path = "output.docx" # 将PDF转换为图片 images = convert_from_path(pdf_path) # 创建一个新的Word文档 doc = Document() # 遍历每一页图片进行OCR转换 for i, image in enumerate(images): # 保存图片以便OCR识别 image_path = f"page_{i+1}.png" image.save(image_path, "PNG") # 使用OCR识别图片内容 text = pytesseract.image_to_string(Image.open(image_path), config=tessdata_dir_config) # 将识别的文本添加到Word文档中 doc.add_paragraph(text) # 删除临时生成的图片文件 os.remove(image_path) # 保存Word文档 doc.save(output_path) ``` 请确保已安装相关依赖库,可以使用`pip install pytesseract PyPDF2 pdf2image python-docx pillow`命令进行安装。同时,还需要安装Tesseract OCR引擎并设置正确的路径。 以上代码将会将PDF文件中的每一页转换为图片,然后使用OCR引擎对图片进行识别,并将识别结果逐页添加到Word文档中。最终生成的Word文件将保存在`output.docx`路径下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DevOpenClub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值