网络爬虫(请求和响应)

URL:全称Uniform Resource Identifier,简单的可以认为是目标网站的链接。

超文本传输协议
HTTP:全称Hyper Text Transfer Protocol,用于从网络传输超文本数据到本地浏览器的传送协议。
HTTPS:即HTTP的加密版,传输安全性强。
说明:
1.HTTPS可以访问HTTP和HTTPS两种协议的网站。
2.HTTPS维护比HTTP昂贵。

HTTP请求

常见请求:GET和POST
GET:get请求中的参数包含在url中,get请求提交的数据最多1024字节。
POST:post请求的参数以表单形式传输,包含在请求体中,post请求提交的数据无字节限制。

说明:
1.涉及敏感信息时,一般使用post请求传输以保证数据安全性。
2.文件传输较大时也会采用post请求。
3.实际操作时,根据请求头Headers中的Genreal中的请求方式Request Method可快速查看网站的请求方式。

请求的网站
说明:请求的网站,即统一资源定位符url。

请求头(Headers)
说明:说明服务器的附加信息,如cookie、referer、User-Agent等。

Host:指定请求资源的主机IP和端口号
Cookie:网站存储用户的部分信息到本地的数据。
Referer:显示该请求是从哪里发来的,常用于防盗链
User-Agent:识别请求源的操作系统及版本和浏览器及版本等信息

请求头是爬虫的重要部分,大部分网站会在这里设有反爬虫措施,可通过点击多个不同网页查看请求头变化找出规律。

请求体
说明:post的请求体承载表单数据;get请求的请求体为空。

响应

说明:由服务器返回给客户端,分为三部分:响应状态码、响应头、响应体

响应状态码
说明:表示服务器的响应状态。
常见响应状态码:

状态码					说明
100						继续
200						成功
400						错误请求
404						未找到
500						服务器内部错误
503						服务器不可用
504						网络超时

响应头
说明:包含了服务器对请求的应答信息。

响应体
说明:服务器返回给客户端的响应数据都在响应体中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值