PDF信息抽取工具(PDFConverter)

简介

目前,PDF已成为电子文档发行和数字化信息传播的一个标 准,其广泛应用于学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的一大 挑战。本项目利用Adobe公司开发的 Acrobat DC SDK对PDF进行格式 转换,从半结构化的中间文件进行信息抽取。相比已有方法, Acrobat导出的中间文件保存了更完整更准确的表格和文本段落信 息,能应用于不同需求的信息抽取任务。项目开源地址: PDFConverter,欢迎Start。

项目架构

转换器+控制器

特性

可根据需要,将PDF转换为xml,doc(docx),html,excel,jpg,txt。xml,html,doc(docx)会保留表格信息,可直接抽取。html尽可能保留PDF文档的layout信息。控制器能支持批量处理,注意是单进程的,因为Adobe Acrobat DC不支持多进程,想要多进程或者多线程,需要使用他们公司另外的包 Adobe PDF Library。小规模数据,几万个PDF(平均一个文档12页),大概15-20个小时能处理完了。

对比

Comparison

FormatConvert speedExtract tableCompleteAnalyze
XMLFastYesGoodEasy
WordSlowYesGoodGeneral
ExcelGeneralYesGreatHard
TXTFatestNoGeneralHardest
HTMLFastYesBestEasy
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值