使用Gecco写Java简单爬虫

本文介绍了如何使用Gecco,一个轻量级的Java爬虫框架,来快速编写爬虫。从创建Maven项目,引入Gecco依赖,到定义页面Bean,设置爬取入口和详情页处理,最后展示了简单的数据抓取流程,适合初学者入门。
摘要由CSDN通过智能技术生成
  • 简介
      Gecco是一个国人写的Java轻量级爬虫框架,官网请戳:Gecco官网
      个人以前用python的爬虫框架也写过一些简单爬虫,但是因为自己不常用python,所以用python写起来并不顺手。偶然情况下,接触Gecco这个Java爬虫框架,尝试用了一下,感觉非常不错,用起来非常简单,非常适合不太懂爬虫基础,又想快速写个爬虫来爬取数据的人。

  • 开发环境简单说明
      (1) 环境说明:
       – JDK版本:JDK 1.8.0
       – 开发工具:IntelliJ idea
       – 项目类别:Maven项目

      (2) 初始化项目环境:
       step1: 建立Maven项目,并选择quickstart原型模板
    这里写图片描述

       step2:pom文件引入Gecco核心依赖

<dependency>
    <groupId>com.geccocrawler</groupId>
    <artifactId>gecco</artifactId>
    <version>1.1.0</version>
</dependency>
  • 使用Gecoo写简单爬虫
      这里以爬取M站为例。现在要将该网站的列表数据和列表详情页数据都爬取下来。
      (1) 建立主入口类NewsSpiderEntry
// Gecco注解中的matchUrl代表可被解析的url路径,pipelines代表一个处理管道,
//当路径页面被下载下来之后,能够通过管道类对封装到HtmlBean中的数据进行处理
//{page}代表一个路径匹配变量,这个变量可以在类中变量通过@RequestParam注解解析获得
@Gecco(matchUrl = "http://news.missevan.com/news/index?p={page}", 
                      pipelines = {
  "mainPipeline", "newsDetailPipe"})
public class NewsSpiderEntry implements HtmlBean {
   

    @Request
    private HttpRequest request;

    //cssPath语法和Jquery的选择器类似,用于获取mathurl文档流中符合的元素数据
    //  //NewsSummaryView类看下面,这个类用于封装解析后的列表页数据
    @HtmlField(cssPath = ".newslist")
    private List<NewsSummaryView> newsSummaryViews;

    //Text代表解析text文档(html代表解析html文档,attr代表解析标签属性等)
    @Text
    @HtmlField(cssPath = ".selected > a")
    private String nextPage;


    public HttpRequest getRequest() {
        return request;
    }

    public void setRequest(HttpRequest request) {
        this.request = request;
    }

    public String getNextPage() {
        return nextPage;
    }

    public void setNextPage(String nextPage) {
        this.nextPage = nextPage;
    }

    public Lis
Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的出一个爬虫Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时Gecco基于十分开放的MIT开源协议,无论你是使用者还是希望共同完善Gecco的开发者,欢迎pull request。如果你喜欢这款爬虫框架请star 或者 fork!参考手册架构图: 主要特征  简单易用,使用jquery风格的选择器抽取元素  支持页面中的异步ajax请求  支持页面中的javascript变量抽取  利用Redis实现分布式抓取,参考gecco-redis  支持结合Spring开发业务逻辑,参考gecco-spring  支持htmlunit扩展,参考gecco-htmlunit  支持插件扩展机制  支持下载时UserAgent随机选取  支持下载代理服务器随机选取 使用手册:http://www.geccocrawler.com/tag/sysc/快速入门:@Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline") public class MyGithub implements HtmlBean {     private static final long serialVersionUID = -7127412585200687225L;     @RequestParameter("user")     private String user;     @RequestParameter("project")     private String project;     @Text     @HtmlField(cssPath=".repository-meta-content")     private String title;     @Text     @HtmlField(cssPath=".pagehead-actions li:nth-child(2) .social-count")     private int star;     @Text     @HtmlField(cssPath=".pagehead-actions li:nth-child(3) .social-count")     private int fork;     @Html     @HtmlField(cssPath=".entry-content")     private String readme;     public String getReadme() {         return readme;     }     public void setReadme(String readme) {         this.readme = readme;     }     public String getUser() {         return user;     }     public void setUser(String user) {         this.user = user;     }     public String getProject() {         return project;     }     public void setProject(String project) {         this.project = project;     }     public String getTitle() {         return title;     }     public void setTitle(String title) {         this.title = title;     }     public int getStar() {         return star;     }     public void setStar(int star) {         this.star = star;     }     public int getFork() {         return fork;     }     public void setFork(int fork) {         this.fork = fork;     }     public static void main(String[] args) {         GeccoEngine.create()         .classpath("com.geccocrawler.gecco.demo")         .start("https://github.com/xtuhcy/gecco")         .thread(1)         .interval(2000)         .loop(true)         .mobile(false)         .start();     } }demo地址:教您使用java爬虫gecco抓取JD全部商品信息(一)教您使用java爬虫gecco抓取JD全部商品信息(二)教您使用java爬虫gecco抓取JD全部商品信息(三)集成Htmlunit下载页面爬虫的监控一个完整的例子,分页处理,结合spring,mysql入库 标签:网络爬虫  开源爬虫
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值