这是一篇tesseract使用备忘录,其中主要论述限定要识别的文字
网址:
tesseract项目网址是:http://code.google.com/p/tesseract-ocr/
命令行的使用:
tesseract xxx.jpg result.txt -psm 7 digit
解释
tesseract 命令名
xxx.jpg 文件名,jpg,png都可以
result.txt 识别出的文字输出到文件
-psm 7 digit 参数
限定要识别的文字
例如要识别身份证号码,一般身份证号码为数字0到9还有大写的X,
加了限定以后