由于工作需要识别一些验证码,图形不复杂。调用别人家的库花了不少冤枉钱,产生了自己搞的想法。网上的教程大都过期了。经过很久的折腾终于找到这篇教程 https://www.cnblogs.com/nayitian/p/15240143.html比较靠谱。作者大神自己可以避坑,我等菜鸟就惨了。又折腾了两天,终于在无数次准备放弃之后,终于找到的错误的地方。过程中,openchat功劳不小。啥时候中国可以自己搞出来啊!!
1 、二值化
无论是训练的tiff文件,还是最后匹配的时候,最好二值化。免得出现很多意想不到的事故。
openchat建议,训练时最好用原图,我等下再用原图试试。我还没试,如果你们也遇到莫名其妙的问题,可以用opencv二值化后处理
2、生成tiff文件时,最好不要用第三方工具。
最好使用python的opencv库处理,输出扩展名指定为tiff就行,cv库会根据扩展名自己转换格式。不正确的tiff文件会在"原文 步骤六、生成.lstmf文件用于lstm训练"时,出现很多不可思议的错误,包含部分页面报错、训练出来的库啥用没有、要求创建 lstm文件等不可理喻的故障。郁闷的是我都遇到了,最后用opencv自己处理了一遍图片样本后,生成过程无比顺利,一点问题都没出。
3、注意更改参数
无法准确识别或训练时,更改合适的 -oem参数及 --psm参数
代码片段,转换为opencv库转换为 tiff格式