1 爬虫的分类
根据被爬网站的数量的不同,我们把爬虫分为:
- 通用爬虫 :通常指搜索引擎的爬虫(https://www.baidu.com)
- 聚焦爬虫 :针对特定网站的爬虫
2 爬虫的流程
- 向起始url发送请求,并获取响应
- 对响应进行提取
- 如果提取url,则继续发送请求获取响应
- 如果提取数据,则将数据进行保存
3 robots协议
Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是互联网中的一般约定。
例如:在百度搜索中,不能搜索到淘宝中某一个具体的商品的详情页面。