python 训练识别验证码_tesseract ocr训练样本识别验证码的问题

这个问题已经折磨我两天了,希望有人能指点一下。

我想简单的识别一下验证码,因为验证码整体比较简单就没考虑使用TensorFlow cnn训练。

因为本身不是做这个方向,主要想赶快突破验证码识别进行下一步实验。

验证码主要长这个样子

我主要使用了google的tesseract ocr,代码里简单的做了一下灰度处理,然后用了默认的eng库,识别效果不是很好。主要体现在:

1、这个验证码是四位的,经常被识别成五位或者更多;

2、浅色的字符有时候会被直接忽略,可能也跟我灰度处理做的比较简单有关系;

3、有些字符识别不清,比如9经常识别成O,V经常识别成Y,这个可以用一个字典来维护勘误,倒也问题不大。

整体的识别率我感觉可能有一半多点。

经过我自学了半天之后发现tesseract也是可以训练的,所以果断下载了jTessBoxEditor进行训练,但是这个软件真的非常不友好,第一次花了一个多小时勘误结果后续处理出现字符编码问题,第二次重来甚至根本识别都识别不出来

我也1是醉了,如果忽略,在后续处理会直接报错page59

APPLY_BOXES:

Boxes read from boxfile: 4

Found 4 good blobs.

Generated training data for 1 words

Page 58

FAIL!

APPLY_BOXES: boxfile line 3/G ((80,0),(80,0)): FAILURE! Couldn't find a matching blob

APPLY_BOXES:

Boxes read from boxfile: 5

Boxes failed resegmentation: 1

Found 4 good blobs.

Generated training data for 1 words

Page 59

Error during processing.

真的不知道该怎么办了,有没有有经验的人给我点建议,本身不是做这个的,不想花太多时间在处理数字图像上,难道我真的要搞一个tf做cnn训练么。。。

多谢!!!!!!!!!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值