📫 作者简介:「子非我鱼」,专注于研究全栈
🔥 三连支持:欢迎 ❤️关注、👍点赞、👉收藏三连,支持一下博主~
文章目录
引言
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )
关于jsoup的方法使用说明,想深入了解的看这个jsoupApi文档使用
采用jsoup方式示例
步骤一:首先引入所需依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
步骤二:准备数据,选择要爬取数据的网页
如图,我要获取这个页面,红框的这些数据
步骤三:创建HospitalInfo.java
@Data
public class HospitalInfo {
/** 医院名称 */
private String title;
/** 医院地址 */
private String address;
/** 联系电话 */
private String phone;
/** 医院等级 */
private String grade;
/** 重点科室 */
private String dment;
/** 经营方式 */
private String mode;
/** 传真号码 */
private String fax;
/** 电子邮箱 */
private String email;
/** 医院网址 */
private String website;
}
步骤四:编写java代码:
ArrayList<HospitalInfo> list = new ArrayList<>();
// 要爬取数据页面的地址
String url = "http://www.a-hospital.com/w/%E4%B8%8A%E6%B5%B7%E5%B8%82%E5%8C%BB%E9%99%A2%E5%88%97%E8%A1%A8";
Document doc = null;
try {
// 这个可以理解为去请求这个页面信息
doc = Jsoup.connect(url).get();
// 这里的表达式,就跟前端的选择器有关
Elements listDiv = doc.select("div#bodyContent > ul > li");
for(Element element : listDiv){
HospitalInfo hospitalInfo = new HospitalInfo();
// 获取下一级的b标签
Elements b = element.getElementsByTag("b");
for (Element element1 : b) {
switch (element1.text()){
case "医院地址":
// parent:上一级 text 标签文本
hospitalInfo.setAddress(element1.parent().text());
break;
case "联系电话":
hospitalInfo.setPhone(element1.parent().text());
break;
case "医院等级":
hospitalInfo.setGrade(element1.parent().text());
break;
case "重点科室":
hospitalInfo.setDment(element1.parent().text());
break;
case "经营方式":
hospitalInfo.setMode(element1.parent().text());
break;
case "传真号码":
hospitalInfo.setFax(element1.parent().text());
break;
case "电子邮箱":
hospitalInfo.setEmail(element1.parent().text());
break;
case "医院网站":
hospitalInfo.setWebsite(element1.parent().text());
break;
default:
hospitalInfo.setTitle(element1.text());
}
}
list.add(hospitalInfo);
}
} catch (IOException e) {
e.printStackTrace();
}
结果:
结论
Jsoup是一个功能强大而灵活的HTML解析库,使得在Java中进行Web页面解析和数据抓取变得更加简单。通过使用Jsoup,开发者可以轻松地从HTML文档中提取所需的信息,而不必手动处理复杂的HTML结构。在实际应用中,Jsoup是一个不可或缺的工具,有助于提高开发效率。