爬虫2 Web请求和HTTP协议
1.Web请求过程剖析
服务器渲染
在服务器处直接将数据和html整合到一起, 统一返回浏览器
特点
在页面源代码中能看到数据
客户端渲染
第一次请求只要一个html框架,第二次拿到数据,进行数据展示。
特点
在页面源代码中看不到数据
2.HTTP协议
2.1基本概念
2.1.1协议
两个计算机之间为了能够流畅的沟通而设置的协定,常见的协议有TCP/IP, SOAP协议,HTTP协议等等……
HTTP就是互联网和服务器之间的数据交互遵守。
HTTP协议把一条消息分为三大块内容。
2.1.2请求
请求行 -> 请求方式(get/post) 请求url地址 协议
请求头 -> 放一些服务器要使用的附加信息
请求体 ->一般放一些请求参数
请求头最常见的一些内容
1.User-Agent : 请求载体本身的身份标识(用啥发送的请求)
2.Referer: 防盗链(这次请求是从哪个页面来的? 反爬会用到。
3.cookie: 本地字符串的数据信息(用户的信息,反爬的token)
2.1.3 响应(返回)
状态行 -> 协议 状态码
状态头 -> 放一些客户端要使用的附加信息
状态列 -> 服务器返回的真正客户端要用的内容(HTML/json)
响应头最常见的一些内容
cookie: 本地字符串的数据信息(用户的信息,反爬的token)