学习笔记
文章目录
网络爬虫概述
定义
其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。
爬虫分类
①通用网络爬虫(搜索引擎使用,需要遵守robots协议)
robots协议 :网站通过robots协议,告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
根据CSDN的robots协议,对于所有的爬虫用户,Disallow后的内容是不可以爬取的。
②聚焦网络爬虫 :自己写的爬虫程序(可以不遵守robots协议)
爬取数据步骤
①确定需要爬取的URL地址
②由请求模块向URL地址发出请求,并得到网站的响应
③从响应内容中提取所需数据
- 提取所需数据,并保存
- 页面中有其他需要继续跟进的URL地址,回到第2步发起请求,如此循环
爬虫请求模块
- 模块