1、静态网页和动态网页
静态网页:网页的内容是 HTML 代码编写的,文字、图片等内容均是通过写好的 HTML 代码来指定的,这种页面叫做静态网页。优点是访问速度快,缺点点可维护性差
动态网页:动态解析 URL 中参数的变化,关联数据库并动态通过xml、ajax等呈现不同的页面内容。
2、无状态HTTP
HTTP 的无状态是指 HTTP 协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态。
即客户端访问服务器,都是需要重新发送信息。
这时候,两个用于保持 HTTP 连接状态的技术就出现了,它们分别是 Session 和 Cookies。
- Session 在服务端,也就是网站的服务器,用来保存用户的会话信息。
- Cookies 在客户端,也可以理解为浏览器端。
有了 Cookies,浏览器在下次访问网页时会自动附带上它发送给服务器,服务器通过识别 Cookies 并鉴定出是哪个用户,然后再判断用户是否是登录状态,然后返回对应的 Response。
所以我们可以理解为 Cookies 里面保存了登录的凭证,有了它我们只需要在下次请求携带 Cookies 发送 Request 而不必重新输入用户名、密码等信息重新登录了。
因此在爬虫中,有时候处理需要登录才能访问的页面时,我们一般会直接将登录成功后获取的 Cookies 放在 Request Headers 里面直接请求,而不必重新模拟登录。
下面例子是使用IT桔子的例子,调用登陆接口,从而生成tookencookies。
github地址:https://github.com/Haley123/Python3_ITjuziSpider