在Prefetcher中取消robots.txt的限制

最新推荐文章于 2023-10-09 10:30:36 发布

caoxu1987728

最新推荐文章于 2023-10-09 10:30:36 发布

阅读量1.5k

点赞数

分类专栏： All Spiders 文章标签：网络爬虫搜索引擎扩展 socket 浏览器互联网

本文链接：https://blog.csdn.net/caoxu1987728/article/details/2404628

版权

All Spiders 专栏收录该内容

42 篇文章 0 订阅

订阅专栏

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫。这一点固然在宣传上起到了一定的作用。但是，在实际的网页采集过程中，这并不是一种最好的作法。因为大部分的网站并不会放置一个robots.txt文件以供搜索引擎读取，在互联网信息以几何级数增长的今天，网站总是在希望自己的内容不被人所利用的同时，又希望自己能够被更多的用户从搜索引擎上检索到。
不过幸好，robots.txt协议本身只是一种附加的协议，网站本身并不能了解究竟哪些Socket联接属于爬虫哪些属于正常的浏览器连接。所以，不遵守robos.txt协议成为了更多搜索引擎的首选。
使用过Heritrix的朋友就会发现这样一个问题，如果当一个网站没有放置robots.txt文件时，Heritrix总是要花上大量的时间试图去访问这样一个文件，甚至可能retry很多次。这无疑很大的降低了抓取效率。因此，为了提高抓取的效率，可以试着将对robots.txt的访问部分去除。
在Heritrix中，对robots.txt文件的处理是处于PreconditionEnforcer这个Processor中的。PreconditionEnforcer是一个Prefetcher，当处理时，总是需要考虑一下当前这个链接是否有什么先决条件要先被满足的，而对robots.txt的访问则正好是其中之一。在PreconditionEnforcer中，有一个private类型的方法，它的方法签名为： private boolean considerRobotsPreconditions(CrawlURI curi)
该方法的含义为：在进行对参数所表示的链接的抓取前，看一下是否存在一个由robots.txt所决定的先决条件。很显然，如果对每个链接都有这样的处理。那么，很有可能导致整个抓取任务的失败。因此，需要对它进行调整。这个方法返回true时的含义为需要考虑robots.txt文件，返回false时则表示不需要考虑robots.txt文件，可以继续将链接传递给后面的处理器。所以，最简单的修改办法就是将这个方法整个注释掉，只留下一个false的返回值。经过笔者的试验，这种方法完全可行，抓取的速度提高了至少一半以上！
小结
本章对一款使用纯Java语言开发的、功能强大的网络爬虫进行了介绍。从它的使用入门至系统结构，以至最后的扩展和定制，旨在使读者用最快的速度了解一款优秀的开源爬虫。然而，由于篇幅所限，本章中的内容只能算是一个简单的入门。Heritrix本身的功能极其强大，且扩展性良好。但它的缺点是配置较为复杂，且源码不好理解。希望有能力的读者可以下载它的源码并且阅读，相信通过这样的努力，一定可以令自己阅读代码的能力有很大的增强。

在一个搜索引擎的开发过程中，使用一个合适的爬虫来获得所需要的网页信息是第一步，这一步是整个系统成功的基础。因为搜索引擎事实上是一个巨大的资源库，如果从资源角度无法解决用户的需要。那么它也一定不会成功。相信Heritrix在今后的版本中会更加完善，功能更为丰富。