python爬虫学习
开始学习爬虫写一篇博客来记录自己爬虫的学习过程。
1:机器人协议
我们秉持着遵纪守法的心态学习爬虫,就应该遵守每一个网站给出的规矩,就需要查看每一个网站的机器人协议,查看网站的机器人协议我们只需要在网站后面加上**/robots.txt**,我们就可以查看机器人协议了。用百度举例如下:
我们就可以查看到
User-agent:就是谁的机器人,Disallow:就是不允许访问的内容,当协议中出现:User-agent: *
就是无论是谁的都是不被允许的,那么既然有些网站不允许我们去访问,那为什么我们还要学习爬虫,因为有一些网站是允许我们的爬虫去访问的,前提是我们不恶意的去访问,不造成它的服务器拥堵。我们自己的爬虫就可以去爬取他的数据。当我们访问一个网站的机器人协议时发现没有,那么这个网站就是允许我们的爬虫进行爬取的。
2:抓包工具
使用浏览器我们右键就是出现一个检查,这里推荐使用的浏览器为windows自带的edge和谷歌浏览器,浏览器自带一个抓包工具。
在edge浏览器里右键出来的就会是中文的界面,谷歌浏览器则是英文的,功能都是一样的,根据自己的习惯选择。
或者我们也可以右键网页,直接查看网页的源代码。
使用抓包工具
在edge的抓包工具里点击》
我们可以看见网络这个选项,如果没有我们就可以将抓包工具向左边延申,就会有一个+号在加号里也可以选择网络这个选项。