『python爬虫』04. 爬虫需要知道的HTTP协议知识(保姆级图文)


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

1. HTTP协议是什么?

HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议.。

浏览器和服务器之间的数据交互遵守HTTP协议。.


2. HTTP协议结构

HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是响应都是三块内容:

  • 请求
  1. 请求⾏ -> 请求⽅式(get/post) 请求url地址 协议
  2. 请求头 -> 放⼀些服务器要使⽤的附加信息
  3. 请求体 -> ⼀般放⼀些请求参数
  • 响应
  1. 状态⾏ -> 协议 状态码(常用来判断我们爬虫是否成功,反应爬虫失败的原因)
  2. 响应头 -> 放⼀些客户端要使⽤的⼀些附加信息
  3. 响应体 -> 服务器返回的真正客户端要⽤的内容(HTML,json)等

写爬⾍的时候要格外注意请求头和响应头,这里面通常会含有被服务器识别到的访问网页的浏览器信息,访问时间等等重要的信息。
在这里插入图片描述


3. 爬⾍需要的请求头和响应头内容

请求头核心内容:

  1. User-Agent : 请求载体的身份标识(⽤啥发送的请求)
  2. Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
  3. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
    响应头核心内容:
  4. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
  5. 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
    字样, 防⽌各种攻击和反爬

总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发现你走远了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值