一. 爬虫的概念
- 模拟客户端,发送请求,获取响应。
- 原则上,只要客户端能做的事情,爬虫都能做。
- 爬虫只能获取客户端展示出来的数据。
二. 爬虫的作用
- 数据采集(采集的数据用于数据分析、挖掘)
- 软件测试(参考:虫师)
- 网络安全(参考:Seebug)
- 网络抢票 / 投票
三. 爬虫的分类
根据被爬网站的数量可将爬虫分为通用爬虫和聚焦爬虫。
爬虫的分类图:
![爬虫的分类](https://img-blog.csdnimg.cn/331e128032fa49669739662e219d1db5.png#pic_center)
四. 爬虫的流程
- 获取一个url。
- 向url发送请求,获取响应。
-
如果从响应中提取到新的url,则继续发送请求并获取响应。
-
如果从响应中提取到数据,则将数据进行保存。
爬虫的流程图:
![爬虫的流程](https://img-blog.csdnimg.cn/990a6a5e6c074c06a6fc04a88b5dd20e.png#pic_center)