20161229:for python网络数据采集03

1.python 的Requests库可以处理复杂的Http请求、cookie、header(响应头和请求头)

2.大多数主流网站都会在它们robots.txt文件里注明禁止爬虫接入登录表单,需要一组不同类型的表单和登录内容。

用request实现


用request跟踪cookie


3.到目前为止,JavaScript是网络上最常用也是支持者最多的客户端脚本语言。jQuery可以动态地创建HTML内容,只有在JavaScript代码执行之后才会显示。Google Analytics是网站最常用的JavaScript库和最受欢迎的用户跟踪工具。Python可以抽取google.maps/LalLng()里的所有坐标,生成一组经/纬度坐标值。通过Google的“地理坐标反向查询API”,可以把经纬度坐标解析成各式规范的地址,便于存储和分析。如果提交表单后,或从服务器获取信息后,网站的页面不需要重新刷新,那么访问的网站就在用Ajax技术。

4.在python中使用Selenium执行JavaScript。

PhantomJS是一个“无头”的浏览器,它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。



5.处理重定向


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值