通过不遵守robot.txt来提高抓取效率

最新推荐文章于 2022-02-12 15:11:30 发布

fei07

最新推荐文章于 2022-02-12 15:11:30 发布

阅读量2k

点赞数

文章标签：网络爬虫搜索引擎扩展 socket 浏览器互联网

本文链接：https://blog.csdn.net/fei07/article/details/6521372

版权

文章探讨了在网页抓取过程中，遵循robots.txt协议可能降低抓取效率的问题。大部分网站并未设置robots.txt，搜索引擎通常选择忽略此协议以提高抓取速度。Heritrix网络爬虫在尝试访问robots.txt文件时会浪费时间，通过修改其源码中的`considerRobotsPreconditions`方法，注释掉考虑robots.txt的逻辑，可以显著提升抓取效率。作者建议有兴趣的读者深入研究Heritrix源码，以进一步提升爬虫性能。

摘要由CSDN通过智能技术生成

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫。这一点固然在宣传上起到了一定的作用。但是，在实际的网页采集过程中，这并不是一种最好的作法。因为
大部分的网站并不会放置一个robots.txt文件以供搜索引擎读取，在互联网信息以几何级数增长的今天，网站总是在希望自己的内容不被人所利用的同时，又希望自己能够被更多的用户从搜索引擎上检索到。
不过幸好，robots.txt协议本身只是一种附加的协议，网站本身并不能了解究竟哪些Socket联接属于爬虫哪些属于正常的浏览器连接。所以，不遵守robos.txt协议成为了更多搜索引擎的首选。使用过Heritrix的朋友就会发现这样一个问题，如果当一个网站没有放置robots.txt文件时，Heritrix总是要花上大量的时间试图去访问这样一个文件，甚至可能retry很多次。这无疑很大的降低了抓取效率。因此，为了提高抓取的效率，
可以试着将对robots.txt的访问部分去除
。在Heritrix中，对robots.txt文

最低0.47元/天解锁文章

fei07

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通过不遵守robot.txt来提高抓取效率

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫
复制链接

扫一扫