【转载】学习爬取豆瓣250遇到的print输出字符GBK编码问题

最新推荐文章于 2021-03-10 22:36:11 发布

mg0511

最新推荐文章于 2021-03-10 22:36:11 发布

阅读量168

点赞数

文章标签： python html 乱码

原文链接：https://www.jianshu.com/p/6d862ba1a566

版权

作者：hello2sys
链接：https://www.jianshu.com/p/6d862ba1a566
来源：简书

【问题】

用Python抓取网页html

出现如下错误：

exception raised:‘gbk’ codec can’t encode character u’\xa0’ in position 73: illegal multibyte sequence

【问题原因】

对于此Unicode字符(html)，需要print出来的话，由于本地系统是Windows中的cmd，默认codepage是CP936，即GBK的编码，所以python解释器需要先将上述的Unicode字符html编码为GBK，然后再在cmd中显示出来。

【解决办法】

方案1：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符，这样就可以正常编码为GBK了。

对应代码为：

print html.encode(“GBK“,‘ignore’);
新问题出现：

改了代码之后，虽然没有报之前的那个错误，但是打印出来文字，英文文字没有出现乱码，但是中文出现乱码的情况

添加以下代码即可解决问题：

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030’)

PS：学习的时候在网上找过很多方法，实在是都跟我遇到的问题不同，无意间看见该作者的解答，真的解决了我的燃眉之急，做个记录，哈哈哈！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【转载】学习爬取豆瓣250遇到的print输出字符GBK编码问题

【转载】学习爬取豆瓣250遇到的print输出字符GBK编码问题作者：hello2sys链接：https://www.jianshu.com/p/6d862ba1a566来源：简书【问题】用Python抓取网页html出现如下错误：exception raised:‘gbk’ codec can’t encode character u’\xa0’ in position 73: illegal multibyte sequence【问题原因】对于此Unicode字符(html)，需要pr
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。