PDF信息抽取工具（PDFConverter）

最新推荐文章于 2024-07-30 14:56:57 发布

houking_can

最新推荐文章于 2024-07-30 14:56:57 发布

阅读量1.7k

点赞数

分类专栏： Tools 文章标签：数据挖掘

本文链接：https://blog.csdn.net/houking_can/article/details/105450035

版权

Tools 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

简介

目前，PDF已成为电子文档发行和数字化信息传播的一个标准，其广泛应用于学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的一大挑战。本项目利用Adobe公司开发的 Acrobat DC SDK对PDF进行格式转换，从半结构化的中间文件进行信息抽取。相比已有方法， Acrobat导出的中间文件保存了更完整更准确的表格和文本段落信息，能应用于不同需求的信息抽取任务。项目开源地址: PDFConverter，欢迎Start。

项目架构

转换器+控制器

特性

可根据需要，将PDF转换为xml，doc(docx)，html，excel，jpg，txt。xml,html，doc(docx)会保留表格信息，可直接抽取。html尽可能保留PDF文档的layout信息。控制器能支持批量处理，注意是单进程的，因为Adobe Acrobat DC不支持多进程，想要多进程或者多线程，需要使用他们公司另外的包 Adobe PDF Library。小规模数据，几万个PDF（平均一个文档12页），大概15-20个小时能处理完了。