最近遇到不少会计财务类朋友给我说发票处理很麻烦,识别出来要么数据不对,要么缺少关键的字段。就用业余时间研究了下,看能够写出一个比较好的工具不
问题一:数据识别错误
读取pdf类的文件,识别的精准度是非常高的,我测试了70个发票,都精准获取到数据了,但也确实不能100%保证数据一定是正确的,总的来说,这块技术还是相当的成熟,用起来也很稳定
核心是图片文本的识别,图片文本设计用到ocr技术,识别效果比较差,经常出现错别字,数据错位的情况。我测试了十几种ocr技术,发现效果最好的还是谷歌的ocr,但谷歌的块成本和价格比较高,总的来说这块也可以解决,只要舍得成本
问题二:字段缺失
这个问题在于识别出来的文本并不是规范且结构化的,难以通过正则获取需要的字段。所以这一块是需要我花费大精力研究的领域,通过定位、标记算法,现在能够较好的识别出一些特别的字段,比如备注、商品名称、税率等
问题三:发票类型不兼容
因发票格式多种多样,导致识别出来的文本也是各种情况都有,要兼容各种情况是非常有挑战的,我目前的思考是先把常见的发票类型给解决了再说,比如增值税发票、机票等,这个非常有挑战性,只能case by case的去做了,也很希望能够知道他们需要解析哪些类型的发票
几乎上面的问题都解决了
可以无偿分享软件包