Spider Note1 http协议

声明:该笔记为学习黑马程序员爬虫视频的时候整理的,纯属笔记,无其他意图。

爬虫地址

  • 爬虫地址URL为网页源码Name栏首个文件对应network标签下的Request URL
  • elements的内容与爬虫获取到的URL地址响应不同,因为elements内容包括:URL响应+js+css+图片,而爬虫只包含第一部分。

http协议与https协议

  • http协议(超文本传输协议):
    • 以明文形式传输
    • 效率高但不安全
  • https协议(http+ssl安全套接字层):
    • 传输之前数据先加密,之后解密获取内容
    • 效率低但安全

http协议之请求

get请求与post请求

  • get没有请求体,get请求把数据放到URL地址中;post有请求体,post请求把数据放到请求体中。
    • post常用于登录注册,post携带的数据量比get大,常用于传输大文本的时候。

请求

  • 请求行(General)
    • Request URL
    • Request Method(get/post)
    • Status Code(状态:是否正常)
  • 请求头(Request Headers 点击 view source)
    • 第一块:Request Method + URL(除去域名之前的部分)+协议版本
    • 域名Host
    • Connection(连接方式):keep-alive(长连接,开始接通,结束断开)/暂时知道这一个
    • User-Agent(用户代理):用来模拟浏览器
    • Cookie:用来存储用户信息的,每次请求都会被携带上发送给对方服务器。(一般只关注Name和Value就够了)
      • 要获取登陆才能访问的页面
      • 对方服务器会根据Cookie判断是否是爬虫。
  • 请求体
    • 携带数据。

http协议之响应

  • 响应头
    • Set-Cookie:对方服务器通过该字段设置Cookie到本地。
  • 响应体
    • URL地址对应的响应。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值