简介
目前,PDF已成为电子文档发行和数字化信息传播的一个标 准,其广泛应用于学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的一大 挑战。本项目利用Adobe公司开发的 Acrobat DC SDK对PDF进行格式 转换,从半结构化的中间文件进行信息抽取。相比已有方法, Acrobat导出的中间文件保存了更完整更准确的表格和文本段落信 息,能应用于不同需求的信息抽取任务。项目开源地址: PDFConverter,欢迎Start。
项目架构
特性
可根据需要,将PDF转换为xml,doc(docx),html,excel,jpg,txt。xml,html,doc(docx)会保留表格信息,可直接抽取。html尽可能保留PDF文档的layout信息。控制器能支持批量处理,注意是单进程的,因为Adobe Acrobat DC不支持多进程,想要多进程或者多线程,需要使用他们公司另外的包 Adobe PDF Library。小规模数据,几万个PDF(平均一个文档12页),大概15-20个小时能处理完了。
对比
Comparison
Format | Convert speed | Extract table | Complete | Analyze |
---|---|---|---|---|
XML | Fast | Yes | Good | Easy |
Word | Slow | Yes | Good | General |
Excel | General | Yes | Great | Hard |
TXT | Fatest | No | General | Hardest |
HTML | Fast | Yes | Best | Easy |