JAVA——优雅的制定一个爬虫api

最新推荐文章于 2024-03-21 14:14:48 发布

置顶

a87060

最新推荐文章于 2024-03-21 14:14:48 发布

阅读量589

点赞数 1

分类专栏：开源API 文章标签： java 爬虫后端

本文链接：https://blog.csdn.net/a87060/article/details/110229642

版权

背景

相信大家都对爬虫或多或少对有一个概念，百度百科描述为：

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

网上大部分的爬虫框架，都很好都整合了制定规则和自动抓取都两个功能。但也因为其整合性高，上手难度也随之提升。目前github上面星比较高的爬虫框架有：

Apache Nutch
webmagic
WebCollector
gecco
…
但是我最想为大家介绍的是下面这个。
retrofit-crawler

retrofit-crawler简介

代码地址：https://github.com/Qlone/retrofit-crawler

retrofit-crawler是一款基于retrofit和jsoup编写的爬虫api，它提供了一个和面向接口编程一样的代码编写风格。

依赖

<dependency>
  <groupId>com.github.qlone</groupId>
  <artifactId>retrofit-crawler</artifactId>
  <version>1.0.0</version>
</dependency>

创建一个爬虫规则

举个例子，当我要获取百度新闻首页的新闻标题和url时，我通过对页面对一顿猛如虎的分析，我获得了一个接口：

public interface Baidu {
   
    @POST("/")
    Call<Accept> html();
}

public class Accept {
   
    @Select("div#pane-news li")

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a87060

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Java 爬虫工具/开源API对比

textboy的专栏

06-09

3762

注：基于网上收集到的信息，未经代码试验过。名称分类优点缺点 Git 评价 Apache Nutch 搜索引擎分布式（依赖hadoop），为搜索引擎设计重量级，用于精抽取会低效，Nutch插件调试困难老大级 Spiderman 爬虫微内核+插件式架构，重配置（无需写代码），多线程用户太少 star 525 | for

百度百科爬虫 java_GitHub 上有哪些优秀的 Java 爬虫项目？

weixin_26742753的博客

02-13

227

背景相信大家都对爬虫或多或少对有一个概念，百度百科描述为：爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网上大部分的爬虫框架，都很好都整合了制定规则和自动抓取都两个功能。但也因为其整合性高，上手难度也随之提升。目前github上面星比较高的爬虫框架有：Apache NutchwebmagicWebCollectorgecco…但是我最想为大家介绍的是下面这个。retrofit-cr...

参与评论您还未登录，请先登录后发表或查看评论

python response重头开始_python爬虫之Scrapy框架

weixin_39718890的博客

10-30

125

Scrapy是用python实现的一个为了爬取网站数据，提取结构性数据而编写的应用框架。使用Twisted高效异步网络框架来处理网络通信。Scrapy架构：ScrapyEngine：引擎。负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。此组件相当于爬虫的“大脑”，是整个爬虫的调度中心。 Schedule：调度器。接收从引擎发过来的requests，并将他们入队。初始爬取url...

Java--常用API 爬虫

qq_64005599的博客

03-18

348

方法底层会根据find方法记录的索引进行字符串的截取,subString(起始索引，结束索引)；拿着文本匹配器从头开始读取，寻找是否有满足规则的子串，(0,4)不包到4,然后会把截取的小串进行返回。，在底层记录子串的起始索引和结束（0,4）m要在str中找符合p规则的小串。包：RegexDemo。m:文本匹配器的对象。

JAVA学习第十三章——常用API（四【爬虫】）

weixin_43791933的博客

12-13

811

JAVA自学习过程

xfshxzs:小锋生活小助手——JAVA开发的基于爬虫和API实现的查询类微信公众号

05-14

关于小锋生活小助手是一个JAVA开发的基于爬虫和API实现的查询类微信公众号，功能包括电影资讯，每日福利，小测试，小游戏，查公交，查天气，查快递等等。博客截图环境 jdk 1.8 tomcat 8.5 依赖

java jsoup 爬虫_用Java优雅爬虫——jsoup

weixin_34409887的博客

02-13

520

一、目录jsoup概述使用场景DOM解析CSS选择器HTML过滤逻辑分析总结二、jsoup概述官方解释：jsoup是一个用于处理真实HTML的Java库。它提供了一个非常方便的API，用于提取和操作数据，使用最好的DOM，CSS和类似jquery的方法。个人接触到jsoup是在用java写爬虫时，苦恼于大量使用正则匹配不仅降低了代码的可读性，相对也比较费时费力。这时候，一款爬虫框架突然引入眼帘，那...

java爬虫——HttpClient爬取jsoup解析

m0_61820867的博客

08-27

928

简介了java如何使用HttpClient爬取html代码以及使用jsoup解析html内容，获取想要的内容

Java 正则表达式爬虫API 07

小钟不想敲代码

01-14

507

正则表达式爬虫API

Java爬虫实例完整源码

11-20

纯Java编写爬虫框架，实现信息抓取, 附详细源码，需要的可以下载学习

jsoup爬虫中文api

10-10

此api来源于http://www.open-open.com/jsoup/，此文档只是作为备份，已备不时之需。

JAVA爬虫实现自动登录淘宝

08-27

基于 Node.js 爬虫的数据 API，搭建一套属于自己的 API 数据

weixin_33933118的博客

07-04

1173

SpliderApi https://github.com/ecitlm/Spl... 基于nodejs 的爬虫 API接口项目,包括前端开发日报、知乎日报、前端top框架排行、妹纸福利、搞笑视频/ 热点新闻资讯详情接口数 ,适合正在学习Vue,AngularJs框架学习开发demo,有一套属于自己的api数据； GitHub地址 ...

【Java常用API】带目的的爬虫

最新发布

人若无名，便可专心练剑

03-21

618

Java自从95年问世以来，经历了很多版本，目前企业中用的最多的是Java8和Java11，因为这两个是长期支持版本，下一个长期支持版本是Java17，相信在未来不久Java17也会逐渐登上历史舞台。需求2:爬取版本号为8,11,17的Java文本。经历了很多版本，目前企业中用的最多的是Java8和Java11，因为这两个是长期支持版本，下一个长期支。需求1:爬取版本号为8,11,17的Java文本，但是只要Java，不显示版本号。需求3:爬取除了版本号为8,11,17的Java文本。

常用API之爬虫

buith9879的博客

02-07

2292

举个例子：abbbbbbbbbbbbbbaaaaaaaaaaaa。分组过后不需要再使用本组数据，仅仅把数据括起来，不含组号。爬虫：在一段文本中寻找到满足正则表达式的目标并记录。通过非捕获分组进行爬取，？=匹配时看全部，保留前面。b尽可能多的获取->贪婪爬取，默认都为贪婪爬取。b尽可能少的获取->非贪婪爬取。可以获取每组中的内容并反复使用。以左括号为基准，最左边是第一组。正则表达式在字符串中的应用。按照ab+的方法进行爬取。

Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理

weixin_33692284的博客

07-15

154

这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架，Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twis...

Java爬虫简单入门

mucheng_的博客

03-22

427

Java爬虫技术使用爬虫技术最常见的API是httpclient和jsoup，当然jdk还有自带的爬虫API;下面介绍下两者的区别： ①HttpClient 是Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议(（GET、POST、PUT、HEAD、DELETE、HEAD、OPTIONS 等）)的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。 HttpClient的主要功能： 1、实现了所有 HTTP 的方法 2、支持 H

Java爬虫详解

m0_37671741的博客

12-09

712

网络编程常用API （1）IP地址：用来标识网络中的一个通信实体的地址。通信实体可以是计算机，路由器等。比如互联网的每个服务器都要有自己的IP地址，而每个局域网的计算机要通信业要配置IP地址。路由器是连接两个或多个网络设备。 InetAddress：封装计算机的ip地址，没有端口两个静态方法：（1）getLocalHost:本机（2）getByName():根据域名或者ip地址...

掌握Selenium Java爬虫技巧及Chrome浏览器测试版使用

综合以上知识点，本资源集合为用户提供了一个全面、深入学习和实践基于Selenium的Java爬虫开发的平台。通过代码示例、学习笔记、操作视频，以及配套的软件工具，用户可以系统地掌握如何构建高效、稳定的自动化爬虫...