第一章 爬虫基础-请求与响应头 2021-09-03

爬虫系列总目录

本章节介绍爬虫基础知识,包括网络,前端界面HTML,CSS, JS 等。
第一章 爬虫基础-网络传输协议
第一章 爬虫基础-请求与响应头
第一章 爬虫基础-前端HTML
第一章 爬虫基础-前端CSS
第一章 爬虫基础-前端JavaScript



一、常见请求头

  • Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。
  • Connection:表示客户端与服务连接类型。
  • Cache-Control:表示缓存头,可以指定可缓存性,到期时间等。
  • Upgrade-Insecure-Requests:升级不安全的请求,意思是会在加载 http 资源时自动替换成 https 请求,让浏览器不再显示https页面中的http请求警报。
  • User-Agent:是客户浏览器的名称。
  • Accept:指浏览器或其他客户端可以接受的MIME文件类型,服务器可以根据它判断并返回适当的文件格式。
  • Referer:表明产生请求的网页来自于哪个URL。
  • Accept-Encoding:指出浏览器可以接受的编码方式。
  • Accept-Langeuage:指出浏览器可以接受的语言种类,如en或en-us指英语,zh或者zh-cn指中文。
  • Cookie:浏览器用这个属性向服务器发送Cookie。

二、常见响应头

  • Connection:keep-alive,告诉客户端服务器的TCP连接也是一个长连接,客户端可以继续使用这个tcp连接发送http请求。
  • Content-Encoding: gzip,告诉客户端,服务端发送的资源是采用gzip编码
  • Date: Wed, 24 Feb 2021 09:50:22 GMT,服务端发送资源时的服务器时间,GMT是格林尼治所在地标准时间。
  • Cookie:通过在 客户端 记录的信息确定用户的身份。
  • Session:通过在 服务器端 记录的信息确定用户的身份。

三、响应状态码

  • 100 ~ 199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。
  • 200 ~ 299:表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)。
  • 300 ~ 399:为完成请求,客户需进一步细化请求。
    例如:请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)。
  • 400 ~ 499:客户端的请求有错误,常用404(服务器无法找到被请求的页面)、403(服务器拒绝访问,权限不够)。
  • 500 ~ 599:服务器端出现错误,常用500(请求未完成。服务器遇到不可预知的情况)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值