ocr识别,报UnicodeEncodeError异常
运行ocr识别文字时,出现如下错误:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa2' in position 14: illegal multibyte sequence
原因解析:
1.‘gbk’ codec can’t encode character :说明是将Unicode字符编码为GBK时候出现了问题,可能是本身Unicode类型的字符中,包含了一些无法转换为GBK编码的一些字符;
2. gbk无法转换'\xa2'字符,所以在转换前需要将“\xa2”替换掉;
解决方法:
text = pytesseract.image_to_string(photo,lang=sTocr,config='--psm 6')
text = text.replace(u'\xa2', u' ')#过滤掉\xa2编码的字符
因为我目标识别的文字是英文字符,所以过滤掉\xa2编码的字符不会影响到我程序运行的正确性。