一、cookie登录
在需要进入个人信息页面时,服务器会跳转到登录页面,登录页面的编码不是utf-8,个人信息页面是utf-8,故在爬取个人信息页面的数据时,会报错编码错误,此时我们就需要cookie登录了。【在请求头中最好留下refere】
refere是防盗链,判断当前页面是不是由上一个路径跳转。
注意:反爬手段出现了动态cookie,以后再对此做出解释。
爬取QQ空间
二、handler处理器【更高级的请求头】-- 处理动态cookie和代理ip不能进行请求定制
handler、build_opener、open
1.获得handler对象
handler = urllib.request.HTTPHandler()
2.通过handler对象获取opener对象
opener = urllib.request.build_opener(handler)
3.调用open方法
respo