爬虫学习日记 ( 一）

最新推荐文章于 2022-09-14 21:33:56 发布

LiLx21

最新推荐文章于 2022-09-14 21:33:56 发布

阅读量462

点赞数

分类专栏： Python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/LiLx21/article/details/52101729

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近对爬虫有点感兴趣，打算用python写爬虫试试。记录下学习过程中的所思所想以及遇到的一些有意思的问题。
持续更新中。。。

爬取网页

编码问题

将爬取到的网页解码str=str.decode(‘utf-8’)，然后打印print(str)的时候会出现错误“UnicodeEncodeError : ‘gbk’ codec can’t encode character……”。在pycharm上面run的时候会出现这个问题，而在idle上面run的话却可以正常打印出来。最后在【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法上找到了答案，这里面对字符串从输入到输出的过程有十分详细的解释。

其实一直到str=str.decode(‘utf-8’)这一步都是正确的，已经把网页成功的用utf-8解码出来了，问题在于windows的cmd默认编码为gbk，也就是说因为只能显示gbk，所以系统会自动的在打印出来的时候吧utf-8变成gbk，而有些utf-8并不能简单的变成gbk，因此会出现’gbk’ codec can’t encode character，这其实只是打印显示出来的问题，程序本身并没有错，在默认编码不是gbk的平台如idle上就可以正常显示，其实在后面的内容中网页的内容并不需要打印出来，所以这个问题也就不算问题了。

如果一定要在pycharm上面正确打印出来，可以str=str.decode(‘utf-8’).encode(‘gbk’,’ignore’).decode(‘gbk’).还有一个办法就是修改设置让windows cmd支持utf-8，具体方法参照这个在windows的cmd中如何设置支持UTF-8编码