python爬虫学习1

最新推荐文章于 2024-10-02 10:53:34 发布

七月Meteors

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量89

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hfndhfvrg/article/details/120613535

版权

python爬虫学习

开始学习爬虫写一篇博客来记录自己爬虫的学习过程。

1：机器人协议

我们秉持着遵纪守法的心态学习爬虫，就应该遵守每一个网站给出的规矩，就需要查看每一个网站的机器人协议，查看网站的机器人协议我们只需要在网站后面加上**/robots.txt**，我们就可以查看机器人协议了。用百度举例如下：
在这里插入图片描述
我们就可以查看到
User-agent:就是谁的机器人，Disallow:就是不允许访问的内容，当协议中出现：User-agent: *
就是无论是谁的都是不被允许的，那么既然有些网站不允许我们去访问，那为什么我们还要学习爬虫，因为有一些网站是允许我们的爬虫去访问的，前提是我们不恶意的去访问，不造成它的服务器拥堵。我们自己的爬虫就可以去爬取他的数据。当我们访问一个网站的机器人协议时发现没有，那么这个网站就是允许我们的爬虫进行爬取的。

2：抓包工具

使用浏览器我们右键就是出现一个检查，这里推荐使用的浏览器为windows自带的edge和谷歌浏览器，浏览器自带一个抓包工具。在这里插入图片描述
在edge浏览器里右键出来的就会是中文的界面，谷歌浏览器则是英文的，功能都是一样的，根据自己的习惯选择。
或者我们也可以右键网页，直接查看网页的源代码。

使用抓包工具

在edge的抓包工具里点击》
在这里插入图片描述
我们可以看见网络这个选项，如果没有我们就可以将抓包工具向左边延申，就会有一个＋号在加号里也可以选择网络这个选项。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。