1. 联合语言训练库
tesseract也提出,通过使用多个语言训练库联合使用。如此,新的语言训练库也可以与原有的数据训练库联合使用。如参数 -l 之后 tesseract input.tif output -l eng+newlanguage。
注意:+ 前后不能有空格
2.限定识别范围
例如限定识别字符在为英文字母和数字
在 tessdata/configs 目录下 新建文件 letters_digits
输入 tessedit_char_whitelist 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
识别时指定:
tesseract captcha_0.tif stdout nobatch letters_digits
3. 指定 psm mode
验证码识别用 7 或 8