注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路
如有侵犯,请联系作者下架
本文只讲解大致思路,其中过程可以略显粗糙
相信逛过淘宝的老铁都知道,某宝网现在的验证码是通过语义识别出需要的图标类型,并找到全部的图标,得到最大的x2值,详情见下图
通过后台查看发现,问题实际上也是一个图片,那么除了目标检测的模型去识别物体位置外,还需要多做一个文字识别的模型去识别问题,话不多说,我们理一下识别步骤
1、收集数据集
不管问题数据集在复杂,还是要收集数据集去统计问题大致的数量和所有图标的大致类别,这个通过爬取去获取即可,经过爬取4k张图片(问题和背景各4k张)后,经统计,大概有40个问题类型左右和60个物体类型左右,并且,4k张图片完全足以训练,这种量级下去做识别,其实是非常简单的,下图为部分类别