UnicodeEncodeErron: ‘gbk‘ codec can‘t encode character ‘ \ue615‘ in position 346139...编码问题解决

心无旁骛~

已于 2023-06-01 09:09:00 修改

阅读量584

点赞数 2

分类专栏： python的BUG解决方案文章标签： python 数学建模开发语言

于 2023-06-01 09:08:02 首次发布

本文链接：https://blog.csdn.net/m0_63007797/article/details/130981049

版权

python的BUG解决方案专栏收录该内容

6 篇文章 0 订阅

订阅专栏

不论使用urllib还是使用requests库经常会遇到中文编码错误的问题，我就经常遇到，因为python安装在windows平台上，cmd的默认编码为GBK，所以在cmd中显示中文时会经常提示gbk编码错误。

报错具体内容如下：
在这里插入图片描述
最近一位学弟在写期末爬虫课设的时候，电脑涉及到了UnicodeEncodeErron: 'abk' codec can't encode character ' ue615' in position 346139: illegal multibyte seauence编码报错的问题。这个问题我以前一直没有遇见过，所以也上网帮他查阅了些许资料，最终找到了几种解决方法。
在cmd中我们输出data.read()时，中文乱码，大部分时候是因为print函数，其实print()函数的局限就是Python默认编码的局限，因为系统是win10的，python的默认编码不是’utf-8’,改一下python的默认编码成’utf-8’就行了。
第一种解决方法是在上面加入几行代码改变标准输出的默认编码。

import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')

但是使用这种方法后，确实是不报错了，但是却出现了中文乱码的问题，比如说输出的内容都是繁体字。
在这里插入图片描述
这主要是因为该语句修改了python的默认编码为utf8，并赋予了我们的stdout输出，使得python的输出默认编码为utf8，但是当我们在cmd中输出还是中文乱码，这是cmd的锅，cmd不能很好地兼容utf8，而IDLE就可以，甚至在IDLE下运行，连“改变标准输出的默认编码”都不用，因为它默认就是utf8。如果一定要在cmd下运行，那就改一下编码，比如我换成“gb18030”，就能正常显示了：

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码

如果还解决不了的话，尝试第二种解决方法。修改设置里面的File Encodings里面的编码
在这里插入图片描述

如果以上两种方法还是解决不了你的问题，那么就可以尝试最后一种方法，在你的代码上进行修改，加入代码page.encoding='utf-8'。
例如初始的代码为：

import io
import sys
from bs4 import BeautifulSoup
import requests
 
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
 
# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
data = BeautifulSoup(page.text, 'lxml')
print(data)
 
# 知识点：str转bytes叫encode，bytes转str叫decode

那么修改后为：

import io
import sys
from bs4 import BeautifulSoup
import requests
 
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
 
# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
page.encoding='utf-8'
data = BeautifulSoup(page.text, 'lxml')
print(data)
 
 
# 知识点：str转bytes叫encode，bytes转str叫decode

编码问题一直是程序员工作和学习的过程中所无法避免的问题，但是遇见这种问题也不用着急焦虑，只要上网查找，总能找到解决办法~

参考：
（1）彻底解决 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xe5‘ in position 13
（2）https://www.douban.com/note/590004720/?_i=5581649634UkTG

心无旁骛~

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
UnicodeEncodeErron: ‘gbk‘ codec can‘t encode character ‘ \ue615‘ in position 346139...编码问题解决

这主要是因为该语句修改了python的默认编码为utf8，并赋予了我们的stdout输出，使得python的输出默认编码为utf8，但是当我们在cmd中输出还是中文乱码，这是cmd的锅，cmd不能很好地兼容utf8，而IDLE就可以，甚至在IDLE下运行，连“改变标准输出的默认编码”都不用，因为它默认就是utf8。如果以上两种方法还是解决不了你的问题，那么就可以尝试最后一种方法，在你的代码上进行修改，加入代码。但是使用这种方法后，确实是不报错了，但是却出现了中文乱码的问题，比如说输出的内容都是繁体字。
复制链接

扫一扫