爬虫(day2)

一.web请求过程剖析

1.服务器渲染:在服务器那边直接把数据和HTML整合在一起,统一返回给浏览器,能在页面源代码中看到数据。

2.客户端渲染:第一次请求只有一个HTML骨架,第二次请求拿到数据,进行数据展示,在页面源代码中看不到数据。

二.HTTP协议
1.协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定.常见的协议有TCP/IP. SOAP协议,SMTP协议等等
2.HTTP协议,Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWw:World Wide Web)服务器传输超文本到本地浏览器的传送协议.直白点儿,就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.
HTTP协议把一条消息分为三大块内容.无论是请求还是响应都是三块内容
3.

请求:
1请求行->请求方式请求url地址协议
2请求头→放一些服务器要使用的附加信息
3请求体→>一般放一些请求参数

4.

响应:
1状态行→>协议状态码
2响应头→>放一些客户端要使用的一些附加信息
3响应体->服务器返回的直正客户端要用的内容(HTML.ison)等

 三.请求头中最常见的一些重要内容(爬虫需要):
1. User-Agent:请求载体的身份标识(用啥发送的请求)
2. Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)3.cookie:本地字符串数据信息(用户登录信息,反爬的token)
响应头中一些重要的内容:
1.cookie:本地字符串数据信息(用户登录信息,反爬的token)
2.各种神奇的莫名其妙的字符串(这个需要经验了,一般都是token字样,防止各种攻击和反爬)
请求方式:
GET:显示提交
POST:隐示提交
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值