ocr识别，报UnicodeEncodeError异常

最新推荐文章于 2023-02-02 10:11:59 发布

有妖气的代码

最新推荐文章于 2023-02-02 10:11:59 发布

阅读量668

点赞数

文章标签： ocr python unicode

本文链接：https://blog.csdn.net/qq_36830101/article/details/116137302

版权

ocr识别，报UnicodeEncodeError异常

运行ocr识别文字时，出现如下错误：

UnicodeEncodeError: 'gbk' codec can't encode character '\xa2' in position 14: illegal multibyte sequence

原因解析：

1.‘gbk’ codec can’t encode character :说明是将Unicode字符编码为GBK时候出现了问题，可能是本身Unicode类型的字符中，包含了一些无法转换为GBK编码的一些字符;

2. gbk无法转换'\xa2'字符,所以在转换前需要将“\xa2”替换掉；

解决方法：

text = pytesseract.image_to_string(photo,lang=sTocr,config='--psm 6')

text = text.replace(u'\xa2', u' ')#过滤掉\xa2编码的字符

因为我目标识别的文字是英文字符，所以过滤掉\xa2编码的字符不会影响到我程序运行的正确性。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

有妖气的代码

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

解决百度AI身份证识别显示unicode码而不显示汉字问题

旭小爷的博客

09-06

1277

本人在使用百度AI文字识别时遇到了汉字显示为unicode编码的问题，可能是因为现在要求jsoncpp.dll要求版本更高，而本人使用的版本比较低的问题，借鉴网上的做法并加以改良，解决了以上问题。

Python tesseract 报UnicodeDecodeError问题

weixin_45880116的博客

03-24

2631

Python tesseract 报UnicodeDecodeError问题

1 条评论您还未登录，请先登录后发表或查看评论

UnicodeEncodeError

7TribeZ的博客

06-26

1310

在抓取网页上面的一些源代码的时候，将uft-8的编码写入文档，并输出的时候，出现这了这个报错，说gbk无法编码\xbb 查找相关资料： 1.str转bytes叫encode，bytes转str叫decode 2.字符就是unicode字符，字符串就是unicode字符数组原来，print（），open（）函数的默认编码不是utf-8，修改编码方式即可补充一下write()函数： write()函数涉及的问题，那就是它的参数必须是str，不能是bytes，也就是说fp.write(resul

ocr识别问题

weixin_43311681的博客

09-29

1056

如何识别图片中的文字尝试了多家的ocr的api都不行，请大神指导！

诡异的UnicodeEncodeError

gumengkai的博客

09-13

231

一个Django项目在win环境pycahrm下运行的好好的，部署到Linux就出现了编码错误涉及的代码段使用了cx_oracle执行sql语句，打印出来粘贴到plsql执行是正常的。 sql = '''select nvl(s.username, 'None') oracle_user, s.logon_time, p.username unix...

Unicode encode error ("\u" 问题解决方案）

arvinyuan的博客

03-31

1553

```python a = "Mu\udcf1iz" b = a.encode("unicode-escape").decode() print('b: {}'.format(b)) c = a.encode(errors='replace').decode() print('c: {}'.format(c)) d = a.encode(errors='xmlcharrefreplace').d...

python unicodeencodeerror_Python发起请求提示UnicodeEncodeError错误代码解决方法

weixin_39951181的博客

12-02

321

具体错误：UnicodeEncodeError: "latin-1" codec can"t encode characters in position 73-74: Body ("测试") is not valid Latin-1. Use body.encode("utf-8") if you want to send it encoded in UTF-8.解决：对请求参数进行编码处理：示例...

【编码转换神奇技巧】：Python3+cv2中文路径兼容性提升指南

[【编码转换神奇技巧】：Python3+cv2中文路径兼容性提升指南](https://opengraph.githubassets.com/e1ce3d912ffe87fe7425b3d9a9e1c73606381cbe541c547e3f04aec3da08c43d/chineseocr/opencv-for-darknet/issues/9) ...

打印str时出现UnicodeEncoderError... surrogates not allowed

胡祺

11-08

729

在打印一个长字符串res时，出现以下错误： print(res) 解决办法 print(repr(res)) 原因解释：目标对象（这里指长字符串res）中可能存在解释器无法理解的字符，无法将其转换为utf-8，不仅无法打印，在debug状态下还无法查看其内容。所以我们可以使用repr函数将字符串转化为解释器可以理解的字符。可能出现的场景：读取大量文本内容时；读取html标签时；总之就是大量的字符容易出现该现象。因为字符串太长，错误的不确定性就强了。用repr函数基本能解决这个问

关于解决UnicodeEncodeError问题

weixin_61897641的博客

01-16

455

解决字符编码问题,及乱码问题

ROR中unicode的处理

井中月

02-01

587

在ROR处理中文时遇到了一些问题，打算探索一下，今天先转一篇文章。下面说的不是一个完整的答案，但我已经尽力啦。如果你真的想要解决这个问题，可以阅读一下Julian Tarkhanov’sUNICODE_PRIMER 。※※※ Onigurama ※※※ 首先，Onigurama （一个正则表达式引擎，ruby1.9开始采用）支持Unicode，也支持许多encoding，很好用，如果你只是想用搜索一下字符串，OK，就是它了。（按：不知道如何使用啊。。。）※※※ jcode类库 ※※※ Rub

UnicodeEncodeError: 'gbk' codec can't encode character ...

小米的博客

11-21

4万+

使用Python写文件的时候，或者将网络数据流写入到本地文件的时候，大部分情况下会遇到：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position ... 这个问题。网络上有很多类似的文件讲述如何解决这个问题，但是无非就是encode，decode相关的，这是导致该问题出现的真正原因吗？不是的。很多时候，我

完美解决UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position XX: illegal multiby...

Vec_Kun的博客

02-02

6427

方法将Unicode字符转换为正常字符，该方法可算是处理这类情况最好的方法了，它会让字符回归到我们期望看到的样子，同时不损害其它正常的空白字符，而且还能还原其它非空白字符。原因大概就是\xa0的编码方式与gbk不兼容，我使用的Windows系统的txt文件默认是gbk编码的，所以也不存在文本的问题。将字符串分割再重组，这时候空白字符就会被pass掉了，不过该方法杀伤力太大，会导致所有空白消失，一定要慎用。我的解决方法十分暴力，直接用str.replace('old', 'new')来替换。

OCR——光学字符识别

在路上的左一

03-26

4564

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。最近对人工智能很有兴趣，OCR应该是大家开始接触最多的一个应用场景，我希望通过开源的OCR项目去实现一个小应用，使用的是Tesseract OCR，遵循the Apache ...

解决python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX