爬虫Day1


   1.https更安全,但是性能较低

   2.http超文本传输协议,默认端口号是80

   3.https (http+ssl安全套接字层) 默认端口号443

  

+ 常见的请求头与响应头

  请求头

  ​         host 域名

  ​         connection (链接类型)

  ​		  Upgrade-Insecure-Requests(升级为HTTPS请求)

  ​         User-Agent(羊皮,伪装):    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit(浏览器引擎)/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36

  ​         Referer:  页面跳转处,防盗链(图片/视频)

  ​         Cookie:     状态保持

  ​		authorization

  响应头

  + Set-Cookie(对方服务器设置Cookie到用户浏览器)

    

  ## 常见的相应状态码

  ### 所有状态码都不可信

  network抓包得到的源码才是判断的依据,element

  + 200  成功

  + 302   跳转

  + 303

  + 307

  + 403 非法请求  没权限

  + 404  找不到页面

  + 500  服务器内部错误

  + 503   服务器维护   或负载过重没能应答  可能是因为爬虫频繁访问URL,使服务器忽视爬虫的请求

    ## 浏览器的请求过程

    浏览器 

    ​		发送所有请求,进行渲染

    爬虫

    ​		只发送指定请求,不进行渲染

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值