Java 爬虫

  • 原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time
  • 网络数据抓取框架 TinySpider

    TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。 Maven引用坐标: <dependency><groupId>org.tinygroup</groupId><artifactId>tinyspider</artifactId><version>0.0.12<version></dependency> 网络爬虫,一般用在全文检索或内容获取上面。 ... 更多TinySpider信息

  • 脚本编程语言 CrawlScript

    JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程... 更多CrawlScript信息

  • Nutch的AJAX页面抓取插件 nutch-htmlunit

    Apache Nutch自带的Http Fetch组件对于AJAX类型页面基本是熟视无睹,因此基于Htmlunit组件实现Nutch Plugin形式提供AJAX类型页面抓取解析支持。 更多nutch-htmlunit信息

  • 网络爬虫 goodcrawler

    goodcrawler(GC) 网络爬虫 GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点: 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit,它能较好地支持javascript。 5、合... 更多goodcrawler信息

  • 垂直爬虫 webmagic

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new SimplePageProcessor("http://my.oschina.net/","http://my.oschina.net/*/blog/*")).t...webmagic 更多webmagic信息

    最近更新: webmagic 0.4.2发布,Java爬虫框架 发布于 2个月前

  • 检索爬虫框架 heyDr

    heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架,遵循GNU GPL V3协议。 用户可以通过heyDr构建自己的垂直资源爬虫,用于搭建垂直搜索引擎前期的数据准备。heyDr 更多heyDr信息

  • opm-server-mirror

    代码更新 2009-11-25: 加入反爬虫功能。直接Web访问服务器将跳转到Google。 使用方法 下载index.zip 解压index.zip得到index.php 将index.php传到支持php和cURL的国外服务器上 打开 http://www.your_website.com/your_folder_if_any/ ,如果页面跳转到Goo... 更多opm-server-mirror信息

  • Java网络蜘蛛/网络爬虫 Spiderman

    Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 主要特点 * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 ... 更多Spiderman信息

  • web 搜索和爬虫 Leopdo

    用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统 更多Leopdo信息

  • OWASP AJAX Crawling Tool

    OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫,java编写,开放源代码。 更多OWASP AJAX Crawling Tool信息

  • Ajax爬虫和测试 Crawljax

    Crawljax: java编写,开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。 更多Crawljax信息

  • Common Crawl

    commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。 Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。... 更多Common Crawl信息

  • 数据收集系统 Chukwa

    什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。 为了更加简单直观的展示 ...Chukwa 更多Chukwa信息

  • 简易HTTP爬虫 HttpBot

    HttpBot 是对 java.net.HttpURLConnection类的简单封装,可以方便的获取网页内容,并且自动管理session,自动处理301重定向等。虽然不能像HttpClient那样强大,支持完整的Http协议,但却非常地灵活,可以满足我目前所有的相关需求。... 更多HttpBot信息

  • Web挖掘工具包 Bixo

    Bixo 是一个开放源码的Web挖掘工具包,基于 Hadoop 开发和运行。通过建立一个定制的级联管总成,您可以快速创建Web挖掘是专门为特定用例优化的应用程序。 更多Bixo信息

  • Web爬虫程序 CrawlZilla

    crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本...CrawlZilla 更多CrawlZilla信息

  • 网页爬虫 Ex-Crawler

    Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。 更多Ex-Crawler信息

  • 网页抓取工具 PlayFish

    playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具 应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在 war包的lib下。 这个项... 更多PlayFish信息

  • web爬虫 jcrawl

    jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq. 更多jcrawl信息

  • Java多线程Web爬虫 Crawler4j

    Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 示例代码: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值