
网络爬虫
jollyjumper
一点记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从Larbin看互联网爬虫设计
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。要设计一个爬虫,首先需要考虑的效率。对于网络转载 2010-02-23 18:24:00 · 750 阅读 · 0 评论 -
larbin中的robots.txt解析
robots.txt是Martijn Koster在1994年编写WebCrawler时发明的。非标准的扩展包括Crawl-delay(两次连续爬行的时间,应该很有用吧,不知道实际用得多不),sitemap和allow。默认的实现是第一个规则取胜。Google的实现是先用allow模式然后disallow,bing查看哪个规则更明确。标准的扩展有visit-time和request-rate等。larbin中的robots解析不支持allow字段,解析不是逐行的而是找token,导致allow和原创 2010-10-09 10:10:00 · 1158 阅读 · 0 评论 -
larbin中两个wait队列的功能
原来的两个wait队列的作用是对于对应namedsite中含有较多url超过限制的,如果之前从内存中取则放入prioritywait队列,从硬盘中取则放入diskwait队列,原始的feed阶段并不把url往这两个队列中投放。限制namedsite中的url总数,可以壤ipsite中的url总数不会太多,而不会太短时间内尝试。原创 2010-10-14 18:26:00 · 869 阅读 · 0 评论 -
url normalization
在爬虫中需要将url变为唯一、合法的形式以避免重复爬行,因此正规化要将其中必须用urlencode的地方全部encode,不需要的即时在原始url中已经encode也要decode(保留字符和非保留字符使用原RFC规定的,参考维基百科url normalization一文,与浏览器有一定出入),且所有的url encode都要使用大写形式,域名后面的冗余点号必须去掉,域名必须全部小写,域名部分还要按照IDN的规定使用punycode进行编码(暂未实现),路径部分要消除.和..的冗余,同事对于超出范围的url原创 2010-11-12 03:14:00 · 1793 阅读 · 0 评论