OFD专用电子发票及PDF普通电子发票-批量解析V1.5

新版Python工具支持OFD专用电子发票和PDF普通电子发票的批量解析,包括备注区和货物清单。使用了xlrd、pdfplumber、xml.dom.minidom等库。部分复杂格式的PDF发票备注和货物清单可能无法正确提取,OFD发票样本有限,可能存在解析问题。提供下载链接和使用说明。
摘要由CSDN通过智能技术生成

      新版小工具终于开发完了。这一版本,之前有些用户提到的备注区、货物清单基本上已经支持。由于此版本耗费了大量精力,这一版本之后,可能较长一段时间不会再更新。

 

1、下载地址: 

      链接:https://pan.baidu.com/s/1siuXDXsNiY2au7Whb3Db7g 提取码:0rky  (若下载链接失效,或使用删除线标记,说明已存在新版本,请在本博客中查看最新文章下载最新版本

2、使用的程序语言

      1)、python

      2)、使用到的主要第三方包:

                Excel读写:xlrd、xlutils、

                PDF文件读取及信息提取:pdfplumber、re、matplotlib(调试时可视化用)

                OFD文件读取及信息提取:zipfile、xml.dom.minidom

3、主要思路

      1)、PDF发票提取

                ①、使用pdfplumber读取pdf文件中的txt,使用re匹配关键字,提取绝大部分字段的信息(各pdf发票格式差异较大,需要使用多种匹配方式去提取)

                ②、使用pdfplumber读取pdf中的lines、edges、curves等,算出pdf中的表格定位点(各pdf差异较大,需要去尝试多种方案),再通过定位点,在pdf中提取特定区域的文字(比如,备注,货物清单)

      2)、OFD发票提取

                ①、OFD是压缩文件,使用zipfile解压

                ②、使用xml.dom.minidom读取解压后的Doc_0/Attachs/original_invoice.xml等xml文件,提取信息

      3)、Excel写入

                ①、使用xlrd读取模板Excel文件,使用xlutils复制格式等

4、功能介绍

      1)、提取的信息

字段
  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 16
    评论
### 回答1: PDF(Portable Document Format,便携式文档格式)和OFD(Open Financial Document,开放金融文件格式)都是电子发票的常用格式之一。电子发票作为一种重要的财务凭证,具有便捷性和环保性等优点。因此,对于电子发票格式的解析是非常重要的。 PDF格式的电子发票可以通过Adobe Acrobat等软件进行打开和编辑,它有良好的兼容性和可靠性。同时,PDF格式还可以通过数字签名等方式进行安全加密和验证。 OFD格式的电子发票是一种由中国金融信息标准化技术委员会制定的标准格式,它具有大容量、高效率、安全可靠的优点。与PDF相比,OFD可以实现更多的业务流程和管理需求,得到了越来越广泛的应用。 在解析电子发票的过程中,需要注意格式的兼容性和安全性。同时,需要对发票的内容进行验证和解析,以确保其真实性和合法性。随着电子商务和数字化技术的不断发展,电子发票的标准化和规范化将成为未来的趋势,电子发票解析和管理也将变得更加智能和高效。 ### 回答2: PDF电子发票OFD电子发票均属于电子发票的一种格式,它们都具有可存储、可传递等特点,已经得到广泛应用。因其具有数字化、自动化、便捷性及环保节能等优势,已成为现代电子商务的重要组成部分。 在解析PDFOFD电子发票时,首先需要理解其文档结构和数据格式。PDF在文件头部和尾部均应当有%%EOF标识,以此表示其为PDF文件,其结构包括文档信息、对象结构、交叉引用表、加密和压缩信息等。OFD则采用XML文档格式,由多个层级的节点组成。OFD采用标准的XML语法,其中包含了发票的开具机构、收款方、明细、税费等信息,信息结构清晰且易于解析解析PDFOFD电子发票时需要使用相应的解析工具,常见的有PDFBox、iText、OFD Reader等工具。这些工具可以帮助我们解析电子发票中的文本、图片、表格等元素,从而将其转化为可读性强、易于处理的数据格式。 综上所述,PDFOFD电子发票解析是一项重要的技术,对于电子商务及电子发票的推广普及有着至关重要的作用。随着技术的进步和应用的推广,我们相信PDFOFD电子发票解析也会得到更好的发展和应用。
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值