在爬取搜房网二手房信息时,遇到一个问题,使用urllib2来下载网页时,下载处理的内容是乱码,
查看房天下的网页编码为gb2312:
meta charset=”gb2312”
使用代码如下:
#coding='utf-8'
import urllib2
url="http://esf.xian.fang.com/"
headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1"}
req = urllib2.Request(url,headers=headers)
response= urllib2.urlopen(req)
html = response.read().decode('gb2312','ignore').encode('utf-8')
print html
打印结果乱码,
得到建议可使用requests进行下载,可自动处理编码问题。
#coding=UTF-8
import requests
r=requests.get("http://esf.xian.fang.com/")
print r.text
下载结果为: