python乱码问题之爬虫篇

最新推荐文章于 2022-07-27 01:14:05 发布

weixin_33985679

最新推荐文章于 2022-07-27 01:14:05 发布

阅读量79

点赞数

文章标签： python 爬虫

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 167: illegal multibyte sequence

使用下面的代码有的时候会报错，说什么GBK无法解码...，原因是output的默认编码跟随系统，utf-8的字符GBK有可能不认识于是报错

from urllib.request import Request
from urllib.request import urlopen

url = 'http://www.cnblogs.com'
data = None
headers = {}
req = Request(url, data, headers)
resp = urlopen(req)

print(resp.read().decode('utf-8'))

查看python的默认编码

import sys
print(sys.getdefaultencoding()) #utf-8

解决办法

替换掉不能解析的字符
设置stdout的编码

import io  
import sys  
import urllib.request  
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码  
res=urllib.request.urlopen('http://www.baidu.com')  
htmlBytes=res.read()  
print(htmlBytes.decode('utf-8'))

永久性修改python默认编码 http://pako.iteye.com/blog/1153343

import sys
print(sys.setdefaultencoding()) #utf-8

文件写入编码错误

print有坑就算了，writelines写入文件也报这个gbk无法编码的问题
解决办法：

//设置编码就搞定了
html=open(line,'w',encoding='utf-8')

总结

这些编码问题其实是一些函数在使用时使用了默认的编码，相应的传入和改变其使用的编码就搞定了。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33985679

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python乱码问题之爬虫篇

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 167: illegal multibyte sequence使用下面的代码有的时候会报错，说什么GBK无法解码...，原因是output的默认编码跟随系统，utf-8的字符GBK有可能不认识于是报错from urllib.request import Requ...
复制链接

扫一扫