电子发票(PDF)识别信息提取(JAVA)电子专票(OFD)在线预览

网上也有资料,有的只有jar包没有源码,整理好网上的资源,把源码开放出来。
https://gitee.com/kanen/invoice
欢迎使用和交流。

内容介绍

电子发票(PDF)识别与验真

1、支持电子发票(PDF)的读取

目前仅支持普通发票,如果您想解析其他发票可底部留言或者联系我

2、验真暂未实现,网上有付费的接口,如用友apilink,阿里云市场、乐税网。差不多都是几分钱一次。

不知道是跟国税局合作,还是使用验证码识别技术 调用的国税局查询接口。这个等以后有时间再研究。

识别原理:

1)使用pdfbox提取pdf文本内容,通过正则匹配到部分属性

2)第一步无法获取全部有效的属性信息,通过关键字拿到定位信息,使用定位的区域,通过pdf的区域读取问题,然后再结合正则进一步匹配得到其他有效属性信息。

特别说明:

该项目核心识别代码来源于github上的fantasyxxj的einvoice项目,在此基础上做的改动调整,在此感谢。

软件架构

springboot

pdfbox

安装教程

从git导入IDE即可

使用说明

参考demo中的电子发票读取

效果如下:

解析结果

后续计划
1、当前已实现功能

pdf的在线预览,pdf通过模板导出,发票的解析与批量导出,自动读取邮箱中的发票

ofd的在线预览,ofd的解析

以上功能均已实现并在项目中应用,暂未脱敏整理出来,有需要可留言沟通

2、发票验真

难点:验证码识别、接口秘钥生成算法(频繁变动)、反爬虫技术等(IP黑名单等)

更新日志
2020-11-18
增加在线预览PDF和OFD文件的demo,启动服务后,访问首页即可 http://localhost:9088/ 具体实现方式请查看源码

更多说明:

预览pdf使用pdf.js,相关源码请到github搜索该开源项目

预览ofd使用ofd.js,相关源码请到github搜索该开源项目,需要说明的是,该项目前端用的VUE,本人才疏学浅,VUE用的不多,对ofd.js发布后的内容进行了一些修改,进而可以在普通的html项目中使用。更多用法诸如ofd转pdf可以参考原项目的实现。

  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 16
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值