Python3 网络爬虫实战记录笔记1:http的请求过程

以下所有内容均源于崔庆才大牛 --《Python3 网络爬虫开发实战》一书。

今天是我博客首开,简单记点知识,便于日后反补。

右击chrome浏览器,选择 ‘检查’ 一项,然后访问百度,即可在右方的network里查看发生了怎样的网络请求,这里太小,可以切换到浏览器下方。然后即可在network里看到一个个条目,每个条目都有具体的属性,点击这个条目可以看到更详细的信息。

条目属性: 

  1. Name:请求的名称,一般以URL最后的一部分为名称。
  2. Status:响应的状态码,显示200为正常的状态,还有很多其他的状态码,日后再说。
  3. Type:请求的文档类型,例如:document,为html文档,
  4. Initiator:请求源。用来标记请求是被那个对象或进程发起的
  5. Size:从服务器上下载的资源的大小如果是从缓存中得到的,该列会显示 from cache。
  6. Time:发起请求到获取响应所需的时间。
  7. Waterfall:网络请求的可视化瀑布流。

详细信息:

单击该条目,包括三部分:general,Response Headers (响应头),Request Headers(请求头)。

General: 

  1. Request URL :为请求的URL(统一资源定位符)。
  2. Request Method:请求的方法(GET,POST)
  3. Status Code:响应状态码(200正常)
  4. Remote address:远程服务器地址和端口
  5. Referrer Policy:为Referrer 判别策略

Request Headers(请求头):

  1. Accept:请求报头域,用于指定客户端可以接受那些信息。
  2. Accept-Language:指定客户端可以接受的语言类型。
  3. Accept-Encoding:指定客户端可以接受的编码(gzip,sdch,deflate。。。。)
  4. HOST:用于请求资源的主机IP及端口号,内容是请求的URL原始的服务器或网关(不是很懂)的位置。
  5. Cookie:一般是存储在用户本地的保存用户账户信息的文件,比如刷新的时候,你会发现自己登陆的账户没有退出,这就是Cookie的功劳。
  6. Referer:此内容是来标记这个请求是从哪个页面发过来的,服务器可以拿这一信息做:来源统计或者防盗链等等。
  7. User-Agent:简称UA,特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装成浏览器;如果不加可能会被识别出为爬虫。
  8. Content-Type:也叫互联网媒体类型,或者MIME类型。在http的消息头中,用来表示具体请求的媒体信息,如text/html代表html类型、image/gif代表gif图片、application/json代表JSON类型。更多的可以查看链接

 Response Headers (响应头):

  1. Date:标识响应产生的时间。
  2. Last-Modified:指资源最后修改的时间。
  3. Content-Encoding:指响应内容的编码。
  4. Server:是一些服务器的信息,诸如版本号、名称等。
  5. Content-Type:文档类型,返回的数据类型,text/html,同上。
  6. Set-cookies:告诉浏览器,需要将此内容放在Cookies里,下次请求携带Cookies请求。
  7. Expires:指定相应的过期时间,可以让代理服务器或浏览器将内容更新到Cookies里,可以降低服务器负载,缩短加载时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值