csv格式怎么保存0开头文本_PDF数据提取小程序—EDFP1.0

EDFP(ExtraDataFromPdf),使用.NET+Python混合开发,利用itextsharp.dll提取文本和图片,Python中的pdfplumber三方库提取表格。在提取表格数据的开发过程中,也尝试使用Camelot库,但效果不佳。若电脑有Adobe Acrobat DC、Adobe Acrobat XI及SolidConverterPDF等情况下,你可优先使用上述软件转Word。

一、EDFP1.0程序介绍

EDFP1.0才是可执行文件。

80804921684c463a2d664a3a5836e629.png

d682e54e177513da5db4988d7af50bf5.png

本程序并非Ocr,不能识别PDF图片中的文字,即若Pdf为图片生成,则无法通过本程序提取内容。

通过选择Pdf路径后,程序可从Pdf中提取图片、文本及表格。提取完成后,提取的内容保存在安装目录中“Data”文件夹下与Pdf同名的文件中,分别为Excel、Images、Text。

1、导出图片

勾选导出图片后,可将PDF中的图片导出为jpeg\png\bmp格式,导出时可指定导出范围,如“全部”,将导出Pdf中全部可识别图片,“指定页码”,将导出Pdf中指定页码范围中的图片。当需从x页至最后一页时,可将结尾页输入9999。导出图片命名规则为“Pn_m”,P代表页,n代表该图片在Pdf中的页码,m代表为第n页第m张图。

2、导出文本

勾选导出文本,可将PDF中的文字导出至Text文件夹中。导出范围同导出图片介绍。

3、导出表格

该功能利用了Python中的三方库pdfplumber,导出效果需根据Pdf质量判断,Pdf质量越好,效果越佳,导出格式为csv。当Pdf本身为加密时,将不能导出内容。Csv命名规则与导图图片命名规则一致。

二、导出前后效果

pdf效果:

1、文本

1f337d54f2a2cd258beb2acbbce28b2c.png

2、图片

341170f77258265bb34eedf4eff9e96d.png

3、表格

1b6b252a468bf55e3973bb9ae53a1a63.png

导出效果:

f9ed73c7bfe6cb9996cf2f7c9acf76b1.png

1、文本

39697748baaa1458ba5487536ae05637.png

2、图片

cf555c518e9c4d4258b0df93de2fe415.png

3、表格

9ba97ab46b4d8e5bc38d9081556f6c9e.png

23bdf49e903c2dc475e0a5e5a3abe576.png

EDFP1.0程序下载地址:

https://share.weiyun.com/5xI2J0S 密码:w8hsgm

ab202e48df7046190edeb41c248f0a51.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值