Jsoup爬虫注解版_简单好用

最新推荐文章于 2024-08-22 11:00:00 发布

置顶期华_

最新推荐文章于 2024-08-22 11:00:00 发布

阅读量587

点赞数 1

分类专栏： Java 爬虫

本文链接：https://blog.csdn.net/qq_43332570/article/details/107920692

版权

Java 爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

介绍

原始的Jsoup爬虫框架使用起来可能比较繁琐，特别是在进行封装对象、级联封装对象(表中表)的时候，常见的做法是针对每个对象编写解决方法。

该框架的作用是减少公共代码，简化操作，不重复造轮子，只需要在类和字段上添加一个的注解，就可以把爬取的内容封装成一个对象，并提供常用的功能，可以基本满足日常的需求。

框架功能：
1、支持爬取文本、HTML、任意标签的属性，并提供分页爬取方法。
2、提供完全匹配、包含、字符串替换、>、<、=等筛选功能。
3、提供自动封装对象、自动封装List集合、级联爬取(表中表)功能
4、提供爬取图片保存到指定目录功能，同时可以自定义图片格式。

涉及技术

反射、IO、Jsoup、自定义注解、DCL单例

安装教程

将这个jar包拷贝到你的项目中即可 码云地址
在这里插入图片描述

使用说明

详细api见下个title

1、爬取单一对象

步骤：

a、在实体类对象和字段上添加注解
在这里插入图片描述
b、执行

结果如下：

2、爬取List集合

步骤：

a、在实体类对象和字段上添加注解(跟上面相同)
b、执行（注意传递的是List）
在这里插入图片描述
结果如下：

3、爬取并保存图片

以爬取jd商城的商品列表为例

步骤

a、在实体类对象和字段上添加注解
在这里插入图片描述
b、执行

结果：

PS：完整demo请转到码云进行查看。

4、级联爬取（表中表）

步骤

a、添加注解
在这里插入图片描述

b、执行方法
在这里插入图片描述
结果：

5、对结果进行过滤

需求：筛选出博客中标题包含 “使用” 这个字符且阅读数量大于100的博客

a、添加注解
在这里插入图片描述
b、执行

结果：
在这里插入图片描述

详细Api说明

@JsoupDocment： 标注在实体类或字段上

若标注在类上：表示该类为爬虫填充实体对象
标注在字段上：表示该字段为另外一个实体对象

属性	说明
targetUrl	爬取网站的url
domain	目标网站的首页，有时候需要拼接url，若targetUrl不存在则以这个为准
cssQuery	css选择器，注意是一个封装实体的css选择器，不加则表示爬取整个页面
subHrefByCss	仅级联爬取时使用，会从该选择器的href属性指定的url去爬取，一般为a标签
subHrefByField	仅级联爬取时使用，从类中的字段上获取url去爬取
urlPrefix	仅级联爬取时使用，有时候级联爬取网站时可能是相对路径，可以通过该属性执行前缀，默认拼接domain属性的值，注意：若是以http开头url则不会添加该前缀

@JsoupField： 只能标注在字段上，

注意：该字段的类所在必须含有@JsoupDocment注解

属性	说明
cssQuery	将指定选择器的中值注入到这个字段上,注意：这是基于JsoupDocment注解指定的css选择器的
textType	是获取text还是html，ExtractTextType枚举值，默认JsoupTextType.TEXT
attr	指定从属性上爬取，如src，若指定该值则textType属性将不起作用
replaceTarget	字符串替换功能，要替换的目标字符串，默认替换为空字符串，可通过replaceRes指定替换为指定字符串
replaceRes	要替换成的目标字符
isInteger	字符是否需要转换为Integer类型，默认false
imgSaveAttr	仅在保存图片时使用，指定从img标签的哪个属性上爬取图片，注意：若要保存图片，该属性必须指定
imgSavePath	图片保存位置，imgAttr属性存在时生效，默认保存在user.dir(当前项目路径)
imgFormat	保存文本时图片格式，ImgType枚举值，默认为ImgType.PNG
filterStrByEquals	字符串筛选时使用，完全匹配
filterStrByContain	字符串筛选时使用，是否包含指定字符串，当filterByEquals也存在时以filterByContain为准
filterIntByEq	筛选数字，=，仅当isInteger为true时生效，判断顺序：大于、小于、等于
filterIntByGt	筛选数字，<，仅当isInteger为true时生效，判断顺序：大于、小于、等于
filterIntByLt	筛选数字，<，仅当isInteger为true时生效，判断顺序：大于、小于、等于

execute方法：
核心方法，用来执行该框架并获取结果

方法	说明
public Object execute(Object obj,Class<?> clazz)	obj：返回值类型，clazz：实体的class
public Object execute(Object obj,Class<?> clazz,String url)	url：爬取的url，忽略@JsoupDocment注解指定的url ，在分页爬取时可使用