python3使用谷歌tesseract-ocr4.0实现图像/文字识别
上一篇是关于安装:ubuntu16.04安装编译谷歌tesseract-ocr4.0。
这一篇python3使用谷歌tesseract-ocr4.0实现图像/文字识别。
在安装tesseract-ocr4.0完成以后,在pycharm里面配置了对应的字体库路径(这步可以不做)。
打开pycharm:
新建一个gg_ocr.py:
当前路径是: /home/xxy/PycharmProjects/different_ocr/google_ocr
源码如下:
# python 3.5
# 谷歌tesseract-ocr使用
from PIL import Image
import pytesseract
import json
import re
import os
class Languages:
CHS = 'chi_sim' # 中文
CHT = 'chi_tra' # 繁体