Nutch 是一个使用 Java 编写,在 Apache 许可下发行的爬虫。它可以用来连接Lucene 的全文检索套件。
WebVac 是斯坦福 WebBase 项目使用的一个爬虫。
WebSPHINX 是一个由 Java 类库构成的,基于文本的搜索引擎。它使用多线程进行网页检索和 HTML 解析,拥有一个图形用户界面用来设置开始的种子 URL和抽取下载的数据。
Ruya 是一个在宽度优先方面表现优秀,基于等级抓取的开放源代码的网络爬虫。其在抓取英语和日语页面方面表现良好,在 GPL 许可下发行,并且完全使用Python 语言编写。
ICDL Crawler 是一个用 C++语言编写、跨平台的网络爬虫。它仅仅使用空闲的 CPU 资源,在 ICDL 标准上抓取整个站点。
Methabot 是一个使用 C 语言编写的高速优化的,使用命令行方式运行的,在2-clause BSD 许可下发布的网页检索器。它的主要特性是高可配置性、模块化;它检索的目标可以是本地文件系统,HTTP 或者 FTP。
RBSE 是第一个发布的爬虫。它有两个基础程序。第一个程序“spider”,抓取队列中的内容到一个关系数据库中;第二个程序“mite” 是一个修改后的 WWW的 ASCII 浏览器,负责从网络上下载页面。
WebCrawler 是第一个公开可用的,用来建立全文索引的一个子程序,它使用WWW 库下载页面,使用宽度优先算法来解析获得 URL 并对其进行排序,并包括一个根据选定文本和查询相似程度爬行的实时爬虫。
CobWeb 使用了一个中央“调度者”和一系列的“分布式的搜集者”的爬虫框架。搜集者解析下载的页面并把找到的 URL 发送给调度者,然后调度者反过来分配给搜集者。调度者使用深度优先策略,并且使用平衡礼貌策略来避免服务器超载。爬虫是使用 Perl 语言编写的。
Mercator 是一个分布式的,模块化的使用 Java 语言编写的网络爬虫。它的模块化源自于使用可互换的“协议模块”和“处理模块”。协议模块负责怎样获取网页(例如使用 HTTP),处理模块负责怎样处理页面。标准处理模块仅仅包括了解析页面和抽取 URL,其他处理模块可以用来检索文本页面,或者搜集网络数据。
WebFountain 是一个与 Mercator 类似的分布式的模块化的爬虫,语言编写的。它的特点是一个管理员机器控制一系列的蚂蚁机器。经过多次下载页面后,页面的变化率可以推测出来。这时,一个非线性的方法必须用于求解方程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬虫,然后用统一策略检索,就是所有页面都使用相同的频率访问。
PolyBot 是一个使用 C++和 Python 语言编写的分布式网络爬虫。它由一个爬虫管理者,一个或多个下载者,和一个或多个 DNS 解析者组成。抽取到的 URL 被添加到硬盘的一个队列里面,然后使用批处理的模式处理这些 URL。
Ubicrawer 是一个使用 Java 语言编写的分布式爬虫。它没有中央程序,但有一组完全相同的代理组成,分配功能通过主机前后一致的散列计算进行。这里没有重复的页面,除非爬虫崩溃了(然后,另外一个代理就会接替崩溃的代理重新开始抓取)。爬虫设计为高伸缩性。
TeezirCrawler 是一个非开源的可伸缩的网页抓取器,在 Teezir 上使用。该程序被设计为一个完整的可以处理各种类型网页的爬虫,包括各种 JavaScript 和HTML 文档。爬虫既支持主题检索也支持非主题检索。
Spinn3r 是一个通过博客构建 Tailrank.com 反馈信息的爬虫。Spinn3r 是基于Java 的,它的大部分体系结构都是开源的。
WebRACE 是一个使用 Java 实现的,拥有检索模块和缓存模块的爬虫,它是一个很通用的称作 eRACE 的系统的一部分。系统从用户方得到下载页面的请求,爬虫的行为有点像一个聪明的代理服务器。系统还监视订阅网页的请求,当网页发生改变的时候,它必须使爬虫下载更新这个页面并且通知订阅者。 WebRACE最大的特色是,当大多数爬虫都从一组 URL 开始的时候,WebRACE 可以连续地接收初始抓取的 URL 地址。