问题描述
在使用Python编写爬虫爬取淘宝页面数据时,遇到编码错误,具体问题如下。
爬虫代码:
……
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
return response.read().decode('gbk')
……
执行代码到return这一行的时候报错:
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 1-2: illegal multibyte sequence
仔细检查代码没有发现错误,淘宝页面的编码也是gbk,后面才发现是由于淘宝将网页