爬虫学习日记 ( 一)

最近对爬虫有点感兴趣,打算用python写爬虫试试。记录下学习过程中的所思所想以及遇到的一些有意思的问题。
持续更新中。。。

爬取网页

编码问题

将爬取到的网页解码str=str.decode(‘utf-8’),然后打印print(str)的时候会出现错误“UnicodeEncodeError : ‘gbk’ codec can’t encode character……”。在pycharm上面run的时候会出现这个问题,而在idle上面run的话却可以正常打印出来。最后在【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法上找到了答案,这里面对字符串从输入到输出的过程有十分详细的解释。

其实一直到str=str.decode(‘utf-8’)这一步都是正确的,已经把网页成功的用utf-8解码出来了,问题在于windows的cmd默认编码为gbk,也就是说因为只能显示gbk,所以系统会自动的在打印出来的时候吧utf-8变成gbk,而有些utf-8并不能简单的变成gbk,因此会出现’gbk’ codec can’t encode character,这其实只是打印显示出来的问题,程序本身并没有错,在默认编码不是gbk的平台如idle上就可以正常显示,其实在后面的内容中网页的内容并不需要打印出来,所以这个问题也就不算问题了。

如果一定要在pycharm上面正确打印出来,可以str=str.decode(‘utf-8’).encode(‘gbk’,’ignore’).decode(‘gbk’).还有一个办法就是修改设置让windows cmd支持utf-8,具体方法参照这个 在windows的cmd中如何设置支持UTF-8编码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值