介绍
哈喽!久等了各位!对于上一篇文章的戛然而止,我正某人在这里先给大家赔不是了。不过话说回来,这也是秉承着我们互联网“小步快跑”的原则嘛!每次只学一点点,但是我们永不止步!当你在某订阅号打开了一篇文章,打眼儿一看,我的天!这文章有一本金瓶…啊不,一本红楼梦那么长,能感受到的只有压力和浓浓的敌意!有这时间,我看一本O'Reilly好不好!话不多说,书归正传,接演前文…
分割
分割就是把验证码切开,分成一个一个的字符,好方便识别的过程。现在的识别技术大多数都是单个字符去训练识别的,并不是说不可以整张的去训练识别,可是那样需要成吨的训练样本和时间,并且非常容易出现过拟合现象,so,我们还是老老实实的分割吧!毕竟我们都是初学者!
分割的方法有很多,对于这种字母互相没有粘连,而且水平位置波动不大的,我推荐大家使用感染分割法!这是一种最基础的分割方法!其他很多分割方法都是以它为基础的,后篇中我们会介绍到一些比较复杂的分割方法。感染分割法概述就是:首先找到水平位置上的一个中点,画一条直的横线,确保这条线可以穿过图片上的每一个字。然后通过从左到右去遍历这条线上的每一个点,每找到一个黑色的点,就把和他所有相邻的黑色点都拿出来,单独生成一张图片。很好理解吧!
图1
如图1所示,这就是我们遍历的点的行走轨迹,就这样一直遍历下去,就能分割出我们所有的字符啦!附上一段代码,仅供参考: