最近在做微博爬虫,了解到了robots协议。
以前就在思考,为什么都说爬虫从入门到入狱呢?哪些网站哪些信息不能爬呢?今天终于找到了规则。
什么是robots协议
百度百科的地址在这里https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fr=aladdin
robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
简单来说,人家网站会告诉你哪里不能爬取,但是呢,人家只是说说,你想爬也没办法。。。嗯
怎么看robots协议
在网站官网后面加上/robots.txt
,示例如下
怎么看robots协议
- User-agent:可以爬取的请求头。*代表所有都可,包括不设置(默认为python)
- Disallow:请求头对应不能爬取的目录。/代表根目录,就是说都不能爬,会有反爬虫