JAVA——优雅的制定一个爬虫api

背景

相信大家都对爬虫或多或少对有一个概念,百度百科描述为:

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

网上大部分的爬虫框架,都很好都整合了制定规则和自动抓取都两个功能。但也因为其整合性高,上手难度也随之提升。目前github上面星比较高的爬虫框架有:

  • Apache Nutch
  • webmagic
  • WebCollector
  • gecco

  • 但是我最想为大家介绍的是下面这个。
  • retrofit-crawler

retrofit-crawler简介

代码地址:https://github.com/Qlone/retrofit-crawler

retrofit-crawler是一款基于retrofit和jsoup编写的爬虫api,它提供了一个和面向接口编程一样的代码编写风格。

依赖

<dependency>
  <groupId>com.github.qlone</groupId>
  <artifactId>retrofit-crawler</artifactId>
  <version>1.0.0</version>
</dependency>

创建一个爬虫规则

举个例子,当我要获取百度新闻首页的新闻标题和url时,我通过对页面对一顿猛如虎的分析,我获得了一个接口:

public interface Baidu {
   
    @POST("/")
    Call<Accept> html();
}

public class Accept {
   
    @Select("div#pane-news li")
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值