了解session和cookies;selemium,ip代理,为爬取需要用户登录的网站做准备
(1)静态网页和动态网页:静态网页也就是html页面,不可以在页面做更改;动态网页是用jsp或者php等语言编写的,是可以在页面做更改的。
(2)session是会话的意思,产生在服务器端,保存在内存中;cookie是保存在客户端,等到再次访问浏览器时会使用,如果要使网站在登录后关闭了,再次打开时还在登录状态,则需要将cookie的信息保存在硬盘中。
(3)http和https:对于这两种协议来说,后者是数据加密型;对于代理来说,http代理http网站,https代理https网站;如果是https网站,那么检测到的代理也是https的,如果是http的,则返回本机ip。
(4)Selenium是一个用于web应用程序的自动化测试工具,功能包括测试与浏览器的兼容性,测试检验软件功能和用户需求,直接在浏览器上运行,从终端用户的角度来测试应用程序。
参考自:https://github.com/datawhalechina/team-learning/tree/master/Python爬虫编程实践