一、打开网页,按下F12进入控制台,点击clear清空所有记录,然后再搜索栏输入百度回车
二、一个完整的请求包含哪些内容
a、请求方式,一般可分为post、get
b、请求头,里面含有Cookie 、User-Agent等重要信息
Cookie指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。
c、请求体
d、响应,包含三部分:响应状态码、响应头、响应体
三、网页爬虫
1、调用python中的urllib、requests等模块能帮我们实现该功能。 ------获取完整的网页信息
2、使用正则表达式选取我们想要提取的数据,网页接口规则包括:网页节点属性、CSS选择器或XPath来提取网页信息的库,如Beautiful Soup、pyquery、lxml等。 ------获取想要的数据信息
3、我们保存数据为HTML格式时,现在的网页大部分采用的都是Ajax、前端模块化工具来构建的,可能整个网页都是由JavaScript渲染的,HTML代码就相当于是一个空壳。使用游览器打开时,游览器会引入app.js文件,这个文件执行JavaScript代码,而JavaScript会改变HTML中的节点,向其添加内容,最后得到完整的页面。如果不使用游览器的话我们可以分析后台Ajax接口,也可使用Selenium、Splash来实现JavaScript的渲染。 ------保存数据
四、使用代理进行爬虫
如果我们使用内网进行爬虫的话,同一个IP访问太过频繁,网络就会封锁我们的IP,我们可以使用代理来隐藏我们的IP,开启代理时,网页里面直接搜索IP就能看到我们使用到公网IP地址。这样的爬虫过程中通过不断更换代理,这样才能防止反爬虫,才能达到爬虫效果。