Robots协议:网络爬虫排除标准
在我们想要爬取某个站点时,可以通过查看此站点的相关Robots协议来查看哪些可以爬,哪些不能爬,当然,仅仅是网站维护者制定的规则而已,并不是说,他们禁的数据我们就爬不到
Robots协议的形式:在网站的Robots.txt中,例如https://www.baidu.com/robots.txt
进入后将会得到如下内容:
User-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ User-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/如果一个站点没有robots,txt文件,则说明其上所有数据皆可爬取