EDFP(ExtraDataFromPdf),使用.NET+Python混合开发,利用itextsharp.dll提取文本和图片,Python中的pdfplumber三方库提取表格。在提取表格数据的开发过程中,也尝试使用Camelot库,但效果不佳。若电脑有Adobe Acrobat DC、Adobe Acrobat XI及SolidConverterPDF等情况下,你可优先使用上述软件转Word。
一、EDFP1.0程序介绍
EDFP1.0才是可执行文件。
本程序并非Ocr,不能识别PDF图片中的文字,即若Pdf为图片生成,则无法通过本程序提取内容。
通过选择Pdf路径后,程序可从Pdf中提取图片、文本及表格。提取完成后,提取的内容保存在安装目录中“Data”文件夹下与Pdf同名的文件中,分别为Excel、Images、Text。
1、导出图片
勾选导出图片后,可将PDF中的图片导出为jpeg\png\bmp格式,导出时可指定导出范围,如“全部”,将导出Pdf中全部可识别图片,“指定页码”,将导出Pdf中指定页码范围中的图片。当需从x页至最后一页时,可将结尾页输入9999。导出图片命名规则为“Pn_m”,P代表页,n代表该图片在Pdf中的页码,m代表为第n页第m张图。
2、导出文本
勾选导出文本,可将PDF中的文字导出至Text文件夹中。导出范围同导出图片介绍。
3、导出表格
该功能利用了Python中的三方库pdfplumber,导出效果需根据Pdf质量判断,Pdf质量越好,效果越佳,导出格式为csv。当Pdf本身为加密时,将不能导出内容。Csv命名规则与导图图片命名规则一致。
二、导出前后效果
pdf效果:
1、文本
2、图片
3、表格
导出效果:
1、文本
2、图片
3、表格
EDFP1.0程序下载地址:
https://share.weiyun.com/5xI2J0S 密码:w8hsgm