昨天开始看py爬虫的资料,搞了一晚上还是没搞定,最后发现是挑了个最蛋疼的网站导致的,换个url地址早不知看到哪一章了。为了纪念充实的一天,特意来写一篇博客纪念下。
好吧,首先要说明我挑的是NGA网站 http://nga.178.com/
然后是标准的调用requests抓取页面源代码
最简式:
import requests
html=requests.get('http://nga.178.com/')
print html.text
这是requests的标准用法,能抓取一些最简单的英文网页。返回结果是:
UnicodeEncodeError:‘gbk' codec can't encode character u'/xee' in position 485:illegal multibyte sequence.
简单的说,就是页面中有个字符’/xee’无法解码。
好吧翻了不少帖子之后,才知道不同网站的字符编码是不一样的,此处NGA的源码表示他们用的是GBK编码,与Python2.0默认的Unicode不相同。
抓
#coding=utf-8