Java 爬虫

最新推荐文章于 2024-08-05 03:06:11 发布

kgblily205

最新推荐文章于 2024-08-05 03:06:11 发布

阅读量2.5k

点赞数

分类专栏： Java 文章标签： Java 网络爬虫

Java 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time

网络数据抓取框架 TinySpider

TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。 Maven引用坐标： <dependency><groupId>org.tinygroup</groupId><artifactId>tinyspider</artifactId><version>0.0.12<version></dependency> 网络爬虫，一般用在全文检索或内容获取上面。 ... 更多TinySpider信息

脚本编程语言 CrawlScript

JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序，有很多JAVA、C++的网络爬虫类库，但是在这些类库的基础上开发十分繁琐，需要大量的代码才可以完成一个简单的操作。鉴于这个问题，我们开发了CrawlScript这种脚本语言，程... 更多CrawlScript信息

Nutch的AJAX页面抓取插件 nutch-htmlunit

Apache Nutch自带的Http Fetch组件对于AJAX类型页面基本是熟视无睹，因此基于Htmlunit组件实现Nutch Plugin形式提供AJAX类型页面抓取解析支持。更多nutch-htmlunit信息

网络爬虫 goodcrawler

goodcrawler(GC) 网络爬虫 GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点： 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit，它能较好地支持javascript。 5、合... 更多goodcrawler信息

垂直爬虫 webmagic

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。以下是爬取oschina博客的一段代码： Spider.create(new SimplePageProcessor("http://my.oschina.net/","http://my.oschina.net/*/blog/*")).t... 更多webmagic信息

最近更新： webmagic 0.4.2发布，Java爬虫框架发布于 2个月前

检索爬虫框架 heyDr

heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架，遵循GNU GPL V3协议。用户可以通过heyDr构建自己的垂直资源爬虫，用于搭建垂直搜索引擎前期的数据准备。更多heyDr信息

opm-server-mirror

代码更新 2009-11-25：加入反爬虫功能。直接Web访问服务器将跳转到Google。使用方法下载index.zip 解压index.zip得到index.php 将index.php传到支持php和cURL的国外服务器上打开 http://www.your_website.com/your_folder_if_any/ ，如果页面跳转到Goo... 更多opm-server-mirror信息

Java网络蜘蛛/网络爬虫 Spiderman

Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。主要特点 * 灵活、可扩展性强，微内核+插件式架构，Spiderman提供了多达 ... 更多Spiderman信息

web 搜索和爬虫 Leopdo

用JAVA编写的web 搜索和爬虫，包括全文和分类垂直搜索，以及分词系统更多Leopdo信息
OWASP AJAX Crawling Tool

OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫，java编写，开放源代码。更多OWASP AJAX Crawling Tool信息
Ajax爬虫和测试 Crawljax

Crawljax: java编写，开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。更多Crawljax信息

Common Crawl

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。 Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。... 更多Common Crawl信息

数据收集系统 Chukwa

什么是 Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能，帮助我们进行数据的收集和整理。为了更加简单直观的展示 ... 更多Chukwa信息

简易HTTP爬虫 HttpBot

HttpBot 是对 java.net.HttpURLConnection类的简单封装，可以方便的获取网页内容，并且自动管理session，自动处理301重定向等。虽然不能像HttpClient那样强大，支持完整的Http协议，但却非常地灵活，可以满足我目前所有的相关需求。... 更多HttpBot信息

Web挖掘工具包 Bixo

Bixo 是一个开放源码的Web挖掘工具包，基于 Hadoop 开发和运行。通过建立一个定制的级联管总成，您可以快速创建Web挖掘是专门为特定用例优化的应用程序。更多Bixo信息

Web爬虫程序 CrawlZilla

crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體，有了它，你就不用依靠商業公司的收尋引擎，也不用再煩惱公司內部網站資料索引的問題由 nutch 專案為核心，並整合更多相關套件，並開發設計安裝與管理UI，讓使用者更方便上手。 crawlzilla 除了爬取基本... 更多CrawlZilla信息

网页爬虫 Ex-Crawler

Ex-Crawler 是一个网页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。更多Ex-Crawler信息

网页抓取工具 PlayFish

playfish是一个采用java技术，综合应用多个开源java组件实现的网页抓取工具，通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具应用开源jar包包括httpclient(内容读取),dom4j（配置文件解析）,jericho（html解析），已经在 war包的lib下。这个项... 更多PlayFish信息

web爬虫 jcrawl

jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq. 更多jcrawl信息

Java多线程Web爬虫 Crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。示例代码： import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息