扩展阅读:(tesseract配置学习1)[http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version]
扩展阅读:(tesseract配置学习2)[https://stackoverflow.com/questions/13007245/how-to-find-parameters-supported-in-tesseract-ocr-config-file]
本文主要介绍两个问题:
- 如何把网页上采集的图片不存到本地直接在内存中识别
使用image = BytesIO(response.content)
转换为流数据 - 解决tesseract不识别最左侧字符的问题
参数中加上config="--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789"
然后直接贡献出代码:
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import r