新版小工具终于开发完了。这一版本,之前有些用户提到的备注区、货物清单基本上已经支持。由于此版本耗费了大量精力,这一版本之后,可能较长一段时间不会再更新。
1、下载地址:
链接:https://pan.baidu.com/s/1siuXDXsNiY2au7Whb3Db7g 提取码:0rky (若下载链接失效,或使用删除线标记,说明已存在新版本,请在本博客中查看最新文章下载最新版本)
2、使用的程序语言
1)、python
2)、使用到的主要第三方包:
Excel读写:xlrd、xlutils、
PDF文件读取及信息提取:pdfplumber、re、matplotlib(调试时可视化用)
OFD文件读取及信息提取:zipfile、xml.dom.minidom
3、主要思路
1)、PDF发票提取
①、使用pdfplumber读取pdf文件中的txt,使用re匹配关键字,提取绝大部分字段的信息(各pdf发票格式差异较大,需要使用多种匹配方式去提取)
②、使用pdfplumber读取pdf中的lines、edges、curves等,算出pdf中的表格定位点(各pdf差异较大,需要去尝试多种方案),再通过定位点,在pdf中提取特定区域的文字(比如,备注,货物清单)
2)、OFD发票提取
①、OFD是压缩文件,使用zipfile解压
②、使用xml.dom.minidom读取解压后的Doc_0/Attachs/original_invoice.xml等xml文件,提取信息
3)、Excel写入
①、使用xlrd读取模板Excel文件,使用xlutils复制格式等
4、功能介绍
1)、提取的信息
字段 |