对爬虫的简单介绍
1. 什么是爬虫?
请求页面并提取数据的自动化过程。
2. 爬虫的基本流程
(1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息。
(2)获取响应内容:如果服务器正常响应,那我们将会收到一个response,response即为我们所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。
(3) 解析内容:如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件进行进一步处理。
(4)保存数据:可以保存到本地文件,也可以保存到数据库(MySQL,Redis,Mongodb等)
3. request请求包含什么?
1) 请求方式:最常用的请求方式包括get请求和post请求。post请求在开发中最常见的是通过表单进行提交,从用户角度来讲,最常见的就是登录验证。当你需要输入一些信息进行登录的时候,这次请求即为post请求。
2) url统一资源定位符:一个网址,一张图片,一个视频等都可以用url去定义。
3) request headers:请求头,包括这次请求的请求类型,cookie信息以及浏览器类型等。这个请求头在我们进行网页抓取的时候还是有些作用的,服务器会通过解析请求头来进行信息的审核,判断这次请求是一次合法的请求。所以当我们通过程序伪装浏览器进行请求的时候,就可以设置一下请求头的信息。
4) 请求体:post请求会把用户信息包装在form-data里面进行提交,因此相比于get请求,post请求的Headers标签的内容会多出Form Data这个信息包。get请求可以简单的理解为普通的搜索回车,信息将会以?间隔添加在url的后面。
4. response包含什么
1) 响应状态:通过Headers中的General可以看到status code。
status code=200表示成功,301跳转,404找不到网页,502服务器错误等。
2) 响应头:包括了内容的类型,cookie信息等。
3) 请响应体:求的目的就是为了得到响应体,包括html代码,Json以及二进制数据等。
此次爬虫实战使用到的库(确认电脑是否已安装以下库)
1.selenium (浏览器自动化测试框架需要我们下载)selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。该库需要我们下载,
下载操作如下:
1、在配置好python3 pip环境变量的情况下使用快捷键 WIN+R 输入cmd 后输入pip install selenium
2、
进入Scripts 文件夹 按着 Shift 加右键点击 Powershel