谷歌一直在用的 robots.txt 解析器,终于开源了

(给技术最前线加星标,每天看技术热点)

原创:技术最前线(id:TopITNews)

什么是 robots.txt ?

Robots Exclusion Protocol (REP,爬虫排除协议) 是一个标准,它允许网站所有者通过一个具有特定语法的简单文本文件(即:robots.txt),控制哪些 url 可以被爬虫程序访问,哪些不能访问。

640?wx_fmt=png

下面是 Google 网站 robots.txt 的部分内容:

User-agent: *	
Disallow: /search	
Allow: /search/about	
Allow: /search/static	
Allow: /search/howsearchworks	
Disallow: /sdch	
Disallow: /groups	
Disallow: /index.html?	
Disallow: /?

从 https://www.google.com/robots.txt 能看到全部。

下面这是百度网站 robots.txt 的部分内容:

User-agent: Baiduspider	
Disallow: /baidu	
Disallow: /s?	
Disallow: /ulink?	
Disallow: /link?	
Disallow: /home/news/data/	

	
User-agent: Googlebot	
Disallow: /baidu	
Disallow: /s?	
Disallow: /shifen/	
Disallow: /homepage/	
Disallow: /cpro	
Disallow: /ulink?	
Disallow: /link?	
Disallow: /home/news/data/

从 https://www.baidu.com/robots.txt 能看到全部。

谷歌开源 robots.txt 解析器

近日,Google 把自家一直在用的网络爬虫 robots.txt 解析器开源了。该仓库一度登上 GitHub 的每日趋势榜。

640?wx_fmt=jpeg

这个解析器用 C++ 编写实现(兼容 C++11)。Google 在生产环境中一直使用的,包括了上世纪 90 年代编写的代码。

仓库链接:https://github.com/google/robotstxt

谷歌为啥要开源 robots.txt 解析器?

robots.txt 是我们所知的互联网的基本组成部分之一,也是搜索引擎得以运行的原因。

因为在过去的 25 年里,REP 只是一个事实上的标准,不同的爬虫对 robots.txt 的解析不尽相同。

robots.txt 是一个「君子协议」,尽管声明某些 url 不能访问,但爬虫可以绕过。这就导致了混淆。

Google 此次开源的目的,是想通过自家使用的解析器来解决这个问题。

推荐阅读

(点击标题可跳转阅读)

觉得这条资讯有帮助?请转发给更多人

关注 技术最前线 加星标看 IT 要闻

640?wx_fmt=png

最新业界资讯,我在看❤️

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值