批量识别PDF/PNG/JPG发票到EXCEL

最近遇到不少会计财务类朋友给我说发票处理很麻烦,识别出来要么数据不对,要么缺少关键的字段。就用业余时间研究了下,看能够写出一个比较好的工具不

问题一:数据识别错误

读取pdf类的文件,识别的精准度是非常高的,我测试了70个发票,都精准获取到数据了,但也确实不能100%保证数据一定是正确的,总的来说,这块技术还是相当的成熟,用起来也很稳定

核心是图片文本的识别,图片文本设计用到ocr技术,识别效果比较差,经常出现错别字,数据错位的情况。我测试了十几种ocr技术,发现效果最好的还是谷歌的ocr,但谷歌的块成本和价格比较高,总的来说这块也可以解决,只要舍得成本

问题二:字段缺失

这个问题在于识别出来的文本并不是规范且结构化的,难以通过正则获取需要的字段。所以这一块是需要我花费大精力研究的领域,通过定位、标记算法,现在能够较好的识别出一些特别的字段,比如备注、商品名称、税率等

问题三:发票类型不兼容

因发票格式多种多样,导致识别出来的文本也是各种情况都有,要兼容各种情况是非常有挑战的,我目前的思考是先把常见的发票类型给解决了再说,比如增值税发票、机票等,这个非常有挑战性,只能case by case的去做了,也很希望能够知道他们需要解析哪些类型的发票

几乎上面的问题都解决了

可以无偿分享软件包

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值