2021SC@SDUSC
Gecco是一款用java语言开发的轻量化的易用的网络爬虫。作为国内大佬研发的java网络爬虫,Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,我们使用者只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。同时这个Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。
以上是gecco爬虫官网的介绍,作为一个java爬虫,它
- 简单易用,使用jquery风格的选择器抽取元素
- 支持爬取规则的动态配置和加载
- 支持页面中的异步ajax请求
- 支持页面中的javascript变量抽取
- 利用Redis实现分布式抓取
- 支持结合Spring开发业务逻辑
- 支持htmlunit扩展
- 支持插件扩展机制
- 支持下载时UserAgent随机选取
- 支持下载代理服务器随机选取
其中的quick start提供了一个简易的网络爬虫
@Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline")
public class MyGithub implements HtmlBean {
private static final long serialVersionUID = -7127412585200687225L;
@RequestParameter("user")
private String user;//url中的{user}值
@RequestParameter("project")
private Strin