开源JAVA爬虫(Spider/Crawler)一览

转载 2007年09月21日 13:03:00

图片点击可在新窗口打开查看 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

 

图片点击可在新窗口打开查看 WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

图片点击可在新窗口打开查看 WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

 

图片点击可在新窗口打开查看 Arale

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

图片点击可在新窗口打开查看 J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

 

图片点击可在新窗口打开查看 spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

图片点击可在新窗口打开查看 Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

 

图片点击可在新窗口打开查看 LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。

图片点击可在新窗口打开查看 JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

 

 

 

图片点击可在新窗口打开查看 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

 

图片点击可在新窗口打开查看 WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

图片点击可在新窗口打开查看 WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

 

图片点击可在新窗口打开查看 Arale

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

图片点击可在新窗口打开查看 J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

 

图片点击可在新窗口打开查看 spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

图片点击可在新窗口打开查看 Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

 

图片点击可在新窗口打开查看 LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。

图片点击可在新窗口打开查看 JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

 

 

 

相关文章推荐

开源网络爬虫程序(spider)一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标. 第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目 >...

网络爬虫 C++ Crawler Spider

  • 2009-05-31 00:14
  • 4.54MB
  • 下载

开源JAVA爬虫crawler4j源码分析 - 1 开个头

最近有需要用到爬虫程序,翻看了一下互联网上关于爬虫的一些介绍及一些开源的网络爬虫: http://www.open-open.com/68.htm 发现用nutch的人比较多,随即拿来使用。之后觉得...

开源JAVA爬虫crawler4j源码分析

crawler4j架构很简洁,总共就35个类,架构也很清晰: edu.uci.ics.crawler4j.crawler 基本逻辑和配置 edu.uci.ics.crawler4j...

开源JAVA爬虫crawler4j源码分析 - 4 URL管理、URL队列

爬虫在工作过程中,会有大量的URL需要存储和分配,如何高效的管理这些URL,是一个爬虫系统的重中之重。 crawler4j默认运行最多每小时解析几千个URL,在修改过后可以达到每小时几十万个(后面的文...

开源JAVA爬虫crawler4j源码分析 - 3 线程管理

一个网页爬虫,到底是怎样安全有效的管理线程的呢?

java版Spider网络爬虫程序

  • 2013-11-05 14:58
  • 22KB
  • 下载

java爬虫--crawler4j

1,简介 此处省略1024字。。。 2,准备 github项目地址:https://github.com/yasserg/crawler4j 3,带cookie爬虫 项目地址上有一个简单的exampl...

Java网络爬虫crawler4j学习笔记<12> RobotstxtParser类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.StringTokenizer;// 根据网站的robot.txt文本,构建al...

Java网络爬虫crawler4j学习笔记<9> RuleSet类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.SortedSet; import java.util.TreeSet;// R...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)