前言:全国增值税发票查验平台验证码没什么好说的,根据指定的颜色识别验证码中的文字,图片如下
下面直接讲解利用paddleocr识别的思路,为什么使用paddleocr,因为paddle中集成了较好的ocr文字识别模型,开箱即用即可,废话不多说,剑指主题,识别思路步骤如下
步骤如下
1、数据集的准备
相信读者在看到此篇文章之前就有看到其他的文章讲解数据集的准备了,这里思路同其他博客一样,也是采取较为简单的方法,平台上需要识别四种颜色的文字,将其转为一种颜色的文字去识别即可,当然你也可以剑走偏锋,同时去识别四种颜色的文字,但是这样,就不能直接使用paddleocr的预训练模型去识别了,需要自己修改模型的输入输出以及模型结构,或者自己搭建模型即可,那么还是讲回主题,使用一种颜色,红色,那么我先讲解其他颜色转红色的思路和代码,在最后会讲解为什么可以转为红色,读者慢慢跟着我的节奏去做即可
首先找一张四个颜色都有的文字图片讲解,大家在看颜色转换的时候,图片才会有对比性,原图如下: