python爬虫学习,零基础入门(三)

了解session和cookies;selemium,ip代理,为爬取需要用户登录的网站做准备

(1)静态网页和动态网页:静态网页也就是html页面,不可以在页面做更改;动态网页是用jsp或者php等语言编写的,是可以在页面做更改的。

(2)session是会话的意思,产生在服务器端,保存在内存中;cookie是保存在客户端,等到再次访问浏览器时会使用,如果要使网站在登录后关闭了,再次打开时还在登录状态,则需要将cookie的信息保存在硬盘中。

(3)http和https:对于这两种协议来说,后者是数据加密型;对于代理来说,http代理http网站,https代理https网站;如果是https网站,那么检测到的代理也是https的,如果是http的,则返回本机ip。

(4)Selenium是一个用于web应用程序的自动化测试工具,功能包括测试与浏览器的兼容性,测试检验软件功能和用户需求,直接在浏览器上运行,从终端用户的角度来测试应用程序。

 

参考自:https://github.com/datawhalechina/team-learning/tree/master/Python爬虫编程实践

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值