爬虫开发的步骤:分析网站的结构---了解我们的需求---请求的分析
所有的爬虫都是模拟浏览器的请求。
爬虫:数据采集 互联网 工具获取我们想要的数据 加密,http com控件 逆向 公开数据
- 数据清洗
- 数据挖掘
- 数据分析
- 分析网站结构
- 了解我们的需求
- 请求分析
在处理数据的时候一般用正则,因为正则可以处理所有类型的有规则和无规则的文本数据。正则可以取出所有的数据。
-1. 判断数据是否在当前请求的网页源代码当中(有三种可能性)
-2. 判断数据是否为ajax异步加载(ajax异步请求是js中的,通过一个请求来实现异步请求(也可以说是多个请求))
- 3.数据混淆/数据加密(通过JS加密,如你在网页上面看到的是1,但是在源代码中看到的是aa,这个是通过服务器把数据加密,如服务器把一个1加密成aa,然后再发送到浏览器,浏览器只能获取到aa,然后浏览器再通过JS解密,把aa解成1在页面上显示。这个是最复杂的,最难的)
python是通过缩进来写函数体的,并不需要{}这个括号,python的标准的缩进是四个空格,也可以用制表符tab,一个tab就是四个空格,要注意的是要么要用四个空格,要么要用一个tab,不能两个混用,混用的话代码就废了。。。