Gecco学习笔记(一):综述

Gecco是一款由国内开发者打造的轻量级Java爬虫,结合了jsoup、httpclient等多个优秀框架,允许用户通过jQuery选择器快速构建爬虫。其特性包括动态配置规则、处理异步请求、JavaScript变量抽取、分布式抓取等,并提供了丰富的扩展支持。本文将通过实际应用,如爬取电商和博客数据,深入理解Gecco的工作原理和设计思路。
摘要由CSDN通过智能技术生成

2021SC@SDUSC

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。作为国内大佬研发的java网络爬虫,Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,我们使用者只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。同时这个Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。

以上是gecco爬虫官网的介绍,作为一个java爬虫,它

简单易用,使用jquery风格的选择器抽取元素
支持爬取规则的动态配置和加载
支持页面中的异步ajax请求
支持页面中的javascript变量抽取
利用Redis实现分布式抓取
支持结合Spring开发业务逻辑
支持htmlunit扩展
支持插件扩展机制
支持下载时UserAgent随机选取
支持下载代理服务器随机选取
其中的quick start提供了一个简易的网络爬虫

@Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline")
public class MyGithub implements HtmlBean {

    private static final long serialVersionUID = -7127412585200687225L;

    @RequestParameter("user")
    private String user;

    @RequestParameter("project")
    private String project;

    @Text
    @H
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值