一、爬虫的基本步骤
1.获取网页内容(http请求,python的Requests库):
通过代码给一个网站服务器发送请求,它会返回网页上的内容
通过浏览器访问网页时,也是同样的方式,给网站服务器发送请求,并返回网页上的内容,只不过浏览器会加以渲染成为优美的画面
由于代码获取网页的内容不加渲染,因此会显得更加原始,并且得到的是整个网页内容
2.解析网页内容(学习HTML网页结构,由于用python请求的内容大都是是html格式,用Beautiful Soup库解析)
即提取想要的信息
3.存储或分析数据
存入数据库,或者做成可视化图表等,具体取决于分析的需求
二、基本道德与法律原则
1.不要爬取公民隐私数据
2.不要爬取受著作权保护的内容
3.不要爬取国家事务、国防建设、尖端科学技术领域的计算机系统
4.爬虫请求数量和频率不能过高,否则可能无异于DDoS攻击(DDos攻击就是通过给服务器发送海量高频的请求让网站资源被耗尽,无法服务其他正常用户)
5.网站有明显的反爬机制,比如账号登陆,验证码机制等就不要去爬了
6.可以通过查看网站的robots.txt文件了解可爬取的网页路径范围这个文件会指明哪些网页允许被爬取,哪些不允许被爬取(君子协议)