搜索引擎蜘蛛给网站带来的危害，有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...

最新推荐文章于 2024-05-15 00:06:01 发布

weixin_34116110

最新推荐文章于 2024-05-15 00:06:01 发布

阅读量305

点赞数

原文链接：http://blog.51cto.com/jimmyli/1183766

版权

搜索引擎蜘蛛给网站带来的危害，有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)

简要：
1.搜索引擎爬虫的危害，蜘蛛对网站的负面影响。
2.有效指引搜索引擎对应的措施，及解决方法。
3.收集最新最准确各大搜索引擎蜘蛛名称。

一、搜索引擎的蜘蛛，是不是爬得越多越好？

当然不是！不论什么搜索引擎的爬虫，来抓取你网站的页面的时候，肯定在消耗你的网站资源，例如网站的连接数、网络带宽资源（空间流量）、服务器的负载。
另外，搜索引擎的爬虫来抓取你的页面数据后，它也不一定收用数据。只代表它“到此一游”留下痕迹而已。因此你的网站为它“服务过、接待过”。

对于一个原创内容丰富，URL结构合理易于爬取的网站来说，简直就是各种爬虫的盘中大餐，很多网站的访问流量构成当中，爬虫带来的流量要远远超过真实用户访问流量，甚至爬虫流量要高出真实流量一个数量级。像提高网站有效利用率虽然设置了相当严格的反爬虫策略，但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。可以肯定的说，当今互联网的网络流量至少有2/3的流量爬虫带来的。因此反爬虫是一个值得网站长期探索和解决的问题。

搜索引擎的主要工作流程(图)

搜索引擎爬虫对网站的负面影响。

1.网站有限的带宽资源，而爬虫的量过多，导致正常用户访问缓慢。
例如，原本虚拟主机主机的连接数受限，带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。

2.搜索引擎爬虫过频密，抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了，蜘蛛爬虫还在不停使劲抓取。
不论是实际生产监控，还是网友反映，部分搜索引擎爬虫可用几个词来形容“坏蜘蛛”“恶爬虫”。很多讨论搜索引擎相关的文章，已经将它们列过排行榜。有兴趣的可更多了解它。

百度蜘蛛工作图

3.与网站主题不相关的搜索引擎爬虫消耗资源。
例如，典型的例子搜索引擎“一淘网蜘蛛（EtaoSpider）为一淘网抓取工具。”被各大电子商务购物网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的点评内容。被禁止的原因首先应该是它们之间没有合作互利的关系，还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。统计发现EtaoSpider爬虫的一天爬行量比“百度蜘蛛：Baiduspider”“360蜘蛛：360Spider”“SOSO蜘蛛：Sosospider”等主流蜘蛛爬虫多几倍，并且是远远的多。重点是EtaoSpider被抓取只会消耗你的网站资源，它不会给你带来访问量，或者其它对你有利用的。中文成语词典可用一个词来形容，这个词留给大家想吧。

4.一些搜索引擎开发程序员，它们写的爬虫程序在测试爬行。你懂的...

5.robots.txt文件不是万能！
肯定有很多人认为，在robots.txt设置屏蔽搜索引擎爬虫即可，或者允许某些特定的搜索引擎爬虫，能达到你预想效果。
不错正规的搜索引擎会遵守规则，且不会及时生效。实际中某些蜘蛛往往不是这样的，先扫描抓取你的页面，无视你的robots.txt。也可能它抓取后不一定留用；或者它只是统计信息，收集互联网行业趋势分析统计。

6.还有一种它们不是蜘蛛，但其有蜘蛛的特性。例如采集软件，采集程序，网络扫描e-mail地址的工具，各式各样的SEO分析统计工具，千奇百怪的网站漏洞扫描工具，等等，只有你想不到的工具，没有它做不到的...

二、有效指引搜索引擎对应的措施，及解决方法：

1.依据空间流量实际情况，就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用，先保证正常浏览器优先。

2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。

3.WWW服务器层面做限制。例如Nginx，Squid，Lighttpd，直接通过“http_user_agent”屏蔽搜索引擎爬虫。

4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的，让robots.txt明示公布于众。

后续文章会详细介绍该方法，包括如果发现蜘蛛，从网站的日志里统计蜘蛛，发现未知的蜘蛛。针对不同的蜘蛛，屏蔽蜘蛛、禁止爬虫怎么样更高效，更快捷。并且通过实例来介绍。

象形图示蜘蛛,爬虫机器人（图）

三、收集最新最准确各大搜索引擎蜘蛛名称

信息来源线上：最新最准确

根据线上空间的访问日志来整理常见的蜘蛛名称，不求最全，但力求爬虫信息资料最新最准确。以下搜索引擎蜘蛛名称都是根据线上空间日志亲手提取。
各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容，也会消耗站点的一定流量，有时候就需要屏蔽某些蜘蛛访问我们的站点。
其实有效常用的搜索引擎就那么几个，只要在robots.txt文件里把常用的几个搜索引擎蜘蛛允许放行就好了，其它的爬虫统统通过通配符（*）禁止掉，屏蔽某些蜘蛛。

现况：

从网上获取的搜索引擎蜘蛛名称，几乎都是原文复制粘贴的转载又转载的文章，而且很多的资料都是过期的了，这些旧资料根本就没修正和更新（实际用处不大），并且关于蜘蛛名称、大小写众说不一，根本就获取不到一个准确无误的资料信息。

最新最准确各大搜索引擎蜘蛛名称：
1、百度蜘蛛：Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等，都洗洗睡吧，那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-p_w_picpath这个百度旗下蜘蛛，查了下资料（其实直接看名字就可以了……），是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些：Baiduspider-mobile（抓取wap）、Baiduspider-p_w_picpath（抓取图片）、Baiduspider-video（抓取视频）、Baiduspider-news（抓取新闻）。
注：以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-p_w_picpath两种。

2、谷歌蜘蛛：Googlebot
这个争议较少，但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile，看名字是抓取wap内容的。

3、360蜘蛛：360Spider，它是一个很“勤奋抓爬”的蜘蛛。

4、SOSO蜘蛛：Sosospider，也可为它颁一个“勤奋抓爬”奖的蜘蛛。

5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!
名称中带“Slurp”和空格，名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述，不知道有效无效。

6、有道蜘蛛：YoudaoBot，YodaoBot（两个名字都有，中文拼音少了个U字母读音差别很大嘎，这都会少？）

7、搜狗蜘蛛：Sogou News Spider
搜狗蜘蛛还包括如下这些：Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider，
（参考一些网站的robots文件，搜狗蜘蛛名称可以用Sogou概括，无法验证不知道有没有效）

看看最权威的百度的robots.txt ， http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节，占了一大块领地。
“Sogou web spider；Sogou inst spider；Sogou spider2；Sogou blog；Sogou News Spider；Sogou Orion spider”目前6个，名称都带空格。

线上常见"Sogou web spider/4.0" ；"Sogou News Spider/4.0" ；"Sogou inst spider/4.0" 可以为它颁个“占名为王”奖。

8、MSN蜘蛛：msnbot，msnbot-media（只见到msnbot-media在狂爬……）

9、必应蜘蛛：bingbot
线上(compatible; bingbot/2.0;)

10、一搜蜘蛛：YisouSpider

11、Alexa蜘蛛：ia_archiver

12、宜搜蜘蛛：EasouSpider

13、即刻蜘蛛：JikeSpider

14、一淘网蜘蛛：EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"

根据上述蜘蛛中选择几个常用的允许抓取，其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用，等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值，网站的管理者眼睛是雪亮的。

另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛，据说这些蜘蛛国外噶，对中文网站用处很小。那不如就节省下资源。

小结：
这次分析了对搜索引擎爬虫的危害，蜘蛛对网站的负面影响；如何有效指引搜索引擎对应的措施，及解决方法；收集来源线上最新最准确各大搜索引擎蜘蛛名称。

欢迎继续看续篇：