robots、404与Spider

最新推荐文章于 2022-09-19 20:23:35 发布

流火星空

最新推荐文章于 2022-09-19 20:23:35 发布

阅读量864

点赞数

分类专栏： http协议学习笔记文章标签： robots.txt 爬虫

本文链接：https://blog.csdn.net/liuhuoxingkong/article/details/96047160

版权

学习笔记同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

http协议

4 篇文章 0 订阅

订阅专栏

1、问题来源

问题始于线上的某次报警。如下图，可见发生了404错误，而REQUESTPATH是robots.txt，一个系统中不存在的路由。从命名上可以隐约猜出与爬虫有关，BROWSER："Robot/Spider"也一定程度说明了这点。下一个问题，怎么确认？是谁在做抓取动作？原因又是什么？

2、分析过程

还记得linux系统的nslookup命令，可以通过外网ip查找对应的域名，执行如下：

结果的第二行：name = 178-154-244-9.spider.yandex.com。这就有意思了。前面的178-154-244-9看起来就是我们检索的ip，后面的spider.yandex.com就是我们要抓的域名。

下一步，看看这个域名是属于谁的：

这样，就与报警信息中的country：俄罗斯对应上的，是一个搜索引擎的域名。

关于 Yandex 搜索：Yandex 是俄罗斯最大本土搜索引擎网站，比俄罗斯 Google 市场占有率都高。而在欧洲，现在已经位居欧洲第二大搜索引擎了，在欧洲市场仅次于 Google.

User-Agent 代码和 IP 地址有人整理过一篇文章，可以参考：https://ie.icoa.cn/bot/yandexbot

3、下一个问题，为什么是robots.txt？

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL，所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。

有一篇文章对robots.txt进行了介绍，可以参见：https://www.test404.com/post-1427.html?wafcloud=1

4、服务器禁止某些User Agent抓取网站

可以考虑使用.htaccess文件，httpd.conf配置文件等方式，可参考：http://www.2zzt.com/jianzhan/7347.html