python识别pdf表格_建议收藏 | 如何保留PDF里的表格、跨页拼接?

本文介绍了三种Python解析PDF表格的方法,包括Py PDF Parser、unet表格检测和OCR Table,旨在保留PDF中的表格并能进行跨页拼接,特别适合处理结构化PDF文档和扫描图片中的表格识别。
摘要由CSDN通过智能技术生成

a28dd53231436ce5ae3d48fdb1e0d6e6.png

最近有没有好用的解析pdf的开源项目?能够解析保留pdf里表格,并且能够跨页拼接。或者强力的ocr项目,能够识别表格?


当然!图灵君为大家收集了以下三种方法:

1、用于从结构化PDF文档中抽取信息的PDF解析包(Python)

《Py PDF Parser - a tool to help extracting information from structured PDFs'》by Jake Stockwin

GitHub:

https://github.com/jstockwin/py-pdf-parser

2、用unet实现对文档表格的自动检测,表格重建

GitHub:

https://github.com/chineseocr/table-ocr

aec10156d1a6951b52ec291023961f2d.png

933cd1827bb6efb06a42f754e2225833.png

4a9d0064f43490b1ce5f03b62cb7def4.png

3、从包含表格的扫描图片中识别表格和文字

《OCR Table - Recognize tables and text from scanned images that contain tables》by bitdata


GitHub:

https://github.com/bitdata/ocrtable

88f53f18aa775b8b7f77a382c0d62442.png

5b897669fd3a3cf6c9c2dbb6cc41efc6.png

f332c015fafcf9f883f9613ead50c97d.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值