1.python 的Requests库可以处理复杂的Http请求、cookie、header(响应头和请求头)
2.大多数主流网站都会在它们robots.txt文件里注明禁止爬虫接入登录表单,需要一组不同类型的表单和登录内容。
用request实现
用request跟踪cookie
3.到目前为止,JavaScript是网络上最常用也是支持者最多的客户端脚本语言。jQuery可以动态地创建HTML内容,只有在JavaScript代码执行之后才会显示。Google Analytics是网站最常用的JavaScript库和最受欢迎的用户跟踪工具。Python可以抽取google.maps/LalLng()里的所有坐标,生成一组经/纬度坐标值。通过Google的“地理坐标反向查询API”,可以把经纬度坐标解析成各式规范的地址,便于存储和分析。如果提交表单后,或从服务器获取信息后,网站的页面不需要重新刷新,那么访问的网站就在用Ajax技术。
4.在python中使用Selenium执行JavaScript。
PhantomJS是一个“无头”的浏览器,它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。
5.处理重定向