HTTP请求过程——Chrome浏览器Network详解
当我们使用Python进行爬虫的时候,其实就是一个模拟的资源访问返回过程,使用第三方库用目的url向所在的服务器发出请求,网站的服务器接收到这个请求后进行处理和分析,然后返回响应。响应中包含了页面的源代码等内容,然后我们在对次进行解析和处理,从中得到我们想要的信息。
每个网站根据自己所展示的内容的不同,会有不同级别的反爬手段,我们就要对此进行分析,才能正确的得到自己想要的返回相应,为了更直观的说明这个过程,使用Chrome浏览器的Network监听组件来进行分析。
打开Chrome 浏览器,快捷键F12即可打开浏览器的开发者工具。这里访问百度,观察这个过程中发生了怎样的网络请求。在Network页面下方出现了一个个的条目,其中一个条目就代表一次发送请求和接收响应的过程。
- Name:请求名称
- Status:响应状态码。200为响应成功,可以判断此响应是否正常
- Type:请求文档类型,document为一个html文档,即html代码
- Initiator:请求源。用来标记请求是由那个对象或者进程发起的
- Size:从服务器下载的资源,资源的大小。如果从缓存中得到的资源,则为form cache
- Time:发起请求到响应的总时间
- Waterfall:网络请求的可视化瀑布流
点开第一个