爬虫杂记2(爬虫,数据,网站)

    爬虫开发的步骤:分析网站的结构---了解我们的需求---请求的分析

    所有的爬虫都是模拟浏览器的请求。

    爬虫:数据采集 互联网 工具获取我们想要的数据   加密,http  com控件 逆向 公开数据  
  - 数据清洗 
  - 数据挖掘
  - 数据分析
- 分析网站结构
- 了解我们的需求

- 请求分析

 在处理数据的时候一般用正则,因为正则可以处理所有类型的有规则和无规则的文本数据。正则可以取出所有的数据。

  -1. 判断数据是否在当前请求的网页源代码当中(有三种可能性)


  -2. 判断数据是否为ajax异步加载(ajax异步请求是js中的,通过一个请求来实现异步请求(也可以说是多个请求))





  - 3.数据混淆/数据加密(通过JS加密,如你在网页上面看到的是1,但是在源代码中看到的是aa,这个是通过服务器把数据加密,如服务器把一个1加密成aa,然后再发送到浏览器,浏览器只能获取到aa,然后浏览器再通过JS解密,把aa解成1在页面上显示。这个是最复杂的,最难的)


    python是通过缩进来写函数体的,并不需要{}这个括号,python的标准的缩进是四个空格,也可以用制表符tab,一个tab就是四个空格,要注意的是要么要用四个空格,要么要用一个tab,不能两个混用,混用的话代码就废了。。。














































评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值