开源JAVA爬虫(Spider/Crawler)一览

转载 2007年09月21日 13:03:00

图片点击可在新窗口打开查看 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

 

图片点击可在新窗口打开查看WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

图片点击可在新窗口打开查看WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

 

图片点击可在新窗口打开查看Arale

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

图片点击可在新窗口打开查看J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

 

图片点击可在新窗口打开查看spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

图片点击可在新窗口打开查看Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

 

图片点击可在新窗口打开查看LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。

图片点击可在新窗口打开查看JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

 

 

 

图片点击可在新窗口打开查看 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

 

图片点击可在新窗口打开查看WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

图片点击可在新窗口打开查看WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

 

图片点击可在新窗口打开查看Arale

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

图片点击可在新窗口打开查看J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

 

图片点击可在新窗口打开查看spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

图片点击可在新窗口打开查看Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

 

图片点击可在新窗口打开查看LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。

图片点击可在新窗口打开查看JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

 

 

 

爬虫开发基础

本系列课程的内容包括为: 1.基本Http请求以及验证方式分析 2.Python用于处理Html格式数据beautifulsoup模块 3.Pyhton的requests模块的使用并实现登陆博客园、知乎、github、抽屉等网站 4.异步IO模块的使用,如:asyncio、gevent、aiohttp、twisted、torando 5.自定义异步IO模块 6.Scrapy框架的使用以及应用
  • 2017年03月06日 10:20

php爬虫框架crawler

项目简介: github地址:https://github.com/LL233/crawler 这是一个基于php开发的爬虫框架 只需要在配置文件中写好对应参数,框架即可运行 在app文件中是使用者开...
  • buzhibujuell
  • buzhibujuell
  • 2016-02-02 12:27:22
  • 1625

用java写的crawler(spider)网络爬虫 源代码

  • 2010年06月26日 12:42
  • 11KB
  • 下载

Python Spider, Web Crawler

项目中需要写个简单的spider,实现对目录型网页(hao123,9991等等)提取域名功能;需要一级域名 简单高效程序,肯定不放过python快速的开发了; 于是google、googl...
  • oMingZi12345678
  • oMingZi12345678
  • 2013-07-23 21:31:12
  • 1754

WebCrawler Java爬虫

  • 2016年09月27日 16:54
  • 20KB
  • 下载

Scrapy:一次性运行多个Spiders

http://stackoverflow.com/questions/10801093/run-multiple-scrapy-spiders-at-once-using-scrapyd
  • iefreer
  • iefreer
  • 2014-03-07 10:39:12
  • 17046

Python Spider, Web Crawler, Bot Examples

Python Spider, Web Crawler, Bot Examples Getting Started Spidering a SiteExtract HTML Title, Desc...
  • lk5423968
  • lk5423968
  • 2015-01-30 11:12:47
  • 517

crawler spider web爬虫

  • 2012年10月25日 15:00
  • 294KB
  • 下载

基于crawler4j、jsoup、javacsv的爬虫实践

1. crawler4j基础 crawler4j是一个基于Java的爬虫开源项目,其官方地址如下: http://code.google.com/p/crawler4j/ crawler4j的使用主要...
  • sadfishsc
  • sadfishsc
  • 2014-03-06 11:59:49
  • 21527

Scrapy源码分析-所有爬虫的基类-Spider(二)

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(...
  • zq602316498
  • zq602316498
  • 2014-07-20 08:55:05
  • 8267
收藏助手
不良信息举报
您举报文章:开源JAVA爬虫(Spider/Crawler)一览
举报原因:
原因补充:

(最多只允许输入30个字)