网络爬虫排除标准

最新推荐文章于 2023-03-15 09:45:18 发布

长歌砀哭

最新推荐文章于 2023-03-15 09:45:18 发布

阅读量482

点赞数

文章标签： python

本文链接：https://blog.csdn.net/djdg1023/article/details/107065081

版权

Robots协议

Robots协议是互联网爬虫的一项公认的道德规范，它的全称是“网络爬虫排除标准”（Robots exclusion protocol），这个协议用来告诉爬虫，哪些页面是可以抓取的，哪些不可以。

如何查看Robots协议

在网站的域名后加上 /robots.txt 就可以了。
协议里最常出现的英文是Allow和Disallow，Allow代表可以被访问，Disallow代表禁止被访问
恶意消耗别人的服务器资源，是一件不道德的事，恶意爬取一些不被允许的数据，还可能会引起严重的法律后果。工具在你手中，如何利用它是你的选择。当你在爬取网站数据的时候，别忘了先看看网站的Robots协议是否允许你去爬取。同时，限制好爬虫的速度，对提供数据的服务器心存感谢，避免给它造成太大压力，维持良好的互联网秩序，也是我们该做的事。