IText+OpenCv抽取PDF表格

本文介绍了一种结合IText和OpenCv的方法来从PDF中抽取标准表格,包括Apache PDFBox将PDF转为图片,OpenCv进行预处理、轮廓识别,最后用IText抽取单元格文本。通过腐蚀和膨胀操作提取表格线,再利用findContours获取轮廓信息,实现对PDF表格的精确识别。
摘要由CSDN通过智能技术生成

上期我们使用了IText解析PDF,这期我们需要使用OpenCv来识别PDF中的表格,然后用IText抽取单元格中的文本。

本文适用的条件是“标准的表格”,也就是说,没有隐藏任何表格线的表格,当然,更不能是表格的图片,不然IText根本无法抽取文本。如果希望抽取有隐藏表格线的表格,可以试试PDFLux这款软件。

标准的表格:

不适用的表格:

首先,我们需要使用Apache PDFBox将PDF渲染为png图片,注意的是渲染dpi。IText中抽取出的文字的坐标使用的是72dpi。由于72dpi分辨率过低,可能会导致图片识别不准确,推荐使用144dpi进行渲染,

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值