第一天
一.浏览器工具
摁F12打开开发者工具。
我们还可以在网页上通过右键,查看源代码,查看网页未经过Js脚本执行的原始代码。页面源代码的脚本中有发送请求获取数据的部分。我们使用python爬取到的内容就是页面源代码。
对于开发者工具,在学习爬虫的时候,我们主要关注前四个——元素,控制台,源代码,网络。
(1)元素Elements
元素栏目里面是当前网页的每一模块对应的html代码,其是经过脚本执行后的效果,并且是实时的状态,可以直接进行对网页展示修改。
(2)网络network
network为抓包工具,可以展现出在整个页面加载过程中,加载的所有网络资源。
network中XHR中显示了浏览器请求来的数据,浏览器具体请求过程如下。页面源代码中有可能有需要的内容有可能没有。
(浏览器拿到的是页面源代码,需要对其进行渲染与执行)
标头(headers)我们可以获得URL,了解请求的类型,请求是否成功,服务器IP,请求头与响应头的内容(http协议)。