爬虫的时候遇到了urlencode,urldecode的问题,用下面函数,可以把 汉字 urlencode
def my_urlencode(str):
key = str;
mass = {}
mass["key"] = key
params = urlencode(mass)
return params
使用fiddler可以对浏览器进行抓包分析,获得get,post的信息。
在爬写字楼时候,遇到了404错误,换代理也无法解决,检查后设置上cookie,使问题得到解决,cookie设置方法如下:
import cookielib
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
urllib2.install_opener(opener )
其实用 urllib 也可以完成这项内容。