以下所有内容均源于崔庆才大牛 --《Python3 网络爬虫开发实战》一书。
今天是我博客首开,简单记点知识,便于日后反补。
右击chrome浏览器,选择 ‘检查’ 一项,然后访问百度,即可在右方的network里查看发生了怎样的网络请求,这里太小,可以切换到浏览器下方。然后即可在network里看到一个个条目,每个条目都有具体的属性,点击这个条目可以看到更详细的信息。
条目属性:
- Name:请求的名称,一般以URL最后的一部分为名称。
- Status:响应的状态码,显示200为正常的状态,还有很多其他的状态码,日后再说。
- Type:请求的文档类型,例如:document,为html文档,
- Initiator:请求源。用来标记请求是被那个对象或进程发起的
- Size:从服务器上下载的资源的大小如果是从缓存中得到的,该列会显示 from cache。
- Time:发起请求到获取响应所需的时间。
- Waterfall:网络请求的可视化瀑布流。
详细信息:
单击该条目,包括三部分:general,Response Headers (响应头),Request Headers(请求头)。
General:
- Request URL :为请求的URL(统一资源定位符)。
- Request Method:请求的方法(GET,POST)
- Status Code:响应状态码(200正常)
- Remote address:远程服务器地址和端口
- Referrer Policy:为Referrer 判别策略
Request Headers(请求头):
- Accept:请求报头域,用于指定客户端可以接受那些信息。
- Accept-Language:指定客户端可以接受的语言类型。
- Accept-Encoding:指定客户端可以接受的编码(gzip,sdch,deflate。。。。)
- HOST:用于请求资源的主机IP及端口号,内容是请求的URL原始的服务器或网关(不是很懂)的位置。
- Cookie:一般是存储在用户本地的保存用户账户信息的文件,比如刷新的时候,你会发现自己登陆的账户没有退出,这就是Cookie的功劳。
- Referer:此内容是来标记这个请求是从哪个页面发过来的,服务器可以拿这一信息做:来源统计或者防盗链等等。
- User-Agent:简称UA,特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装成浏览器;如果不加可能会被识别出为爬虫。
- Content-Type:也叫互联网媒体类型,或者MIME类型。在http的消息头中,用来表示具体请求的媒体信息,如text/html代表html类型、image/gif代表gif图片、application/json代表JSON类型。更多的可以查看链接。
Response Headers (响应头):
- Date:标识响应产生的时间。
- Last-Modified:指资源最后修改的时间。
- Content-Encoding:指响应内容的编码。
- Server:是一些服务器的信息,诸如版本号、名称等。
- Content-Type:文档类型,返回的数据类型,text/html,同上。
- Set-cookies:告诉浏览器,需要将此内容放在Cookies里,下次请求携带Cookies请求。
- Expires:指定相应的过期时间,可以让代理服务器或浏览器将内容更新到Cookies里,可以降低服务器负载,缩短加载时间。