python爬虫学习1

python爬虫学习

开始学习爬虫写一篇博客来记录自己爬虫的学习过程。

1:机器人协议

我们秉持着遵纪守法的心态学习爬虫,就应该遵守每一个网站给出的规矩,就需要查看每一个网站的机器人协议,查看网站的机器人协议我们只需要在网站后面加上**/robots.txt**,我们就可以查看机器人协议了。用百度举例如下:
在这里插入图片描述
我们就可以查看到在这里插入图片描述
User-agent:就是谁的机器人,Disallow:就是不允许访问的内容,当协议中出现:User-agent: *在这里插入图片描述
就是无论是谁的都是不被允许的,那么既然有些网站不允许我们去访问,那为什么我们还要学习爬虫,因为有一些网站是允许我们的爬虫去访问的,前提是我们不恶意的去访问,不造成它的服务器拥堵。我们自己的爬虫就可以去爬取他的数据。当我们访问一个网站的机器人协议时发现没有,那么这个网站就是允许我们的爬虫进行爬取的。

2:抓包工具

使用浏览器我们右键就是出现一个检查,这里推荐使用的浏览器为windows自带的edge和谷歌浏览器,浏览器自带一个抓包工具。在这里插入图片描述
在edge浏览器里右键出来的就会是中文的界面,谷歌浏览器则是英文的,功能都是一样的,根据自己的习惯选择。
或者我们也可以右键网页,直接查看网页的源代码。

使用抓包工具

在edge的抓包工具里点击》
在这里插入图片描述
我们可以看见网络这个选项,如果没有我们就可以将抓包工具向左边延申,就会有一个+号在加号里也可以选择网络这个选项。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值