java爬虫

在这里插入图片描述

📫 作者简介:「子非我鱼」,专注于研究全栈
🔥 三连支持:欢迎 ❤️关注、👍点赞、👉收藏三连,支持一下博主~

引言

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

从一个URL,文件或字符串中解析HTML;

使用DOM或CSS选择器来查找、取出数据;

可操作HTML元素、属性、文本;( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )
关于jsoup的方法使用说明,想深入了解的看这个jsoupApi文档使用

采用jsoup方式示例
步骤一:首先引入所需依赖:
 		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>
步骤二:准备数据,选择要爬取数据的网页

在这里插入图片描述
如图,我要获取这个页面,红框的这些数据

步骤三:创建HospitalInfo.java
@Data
public class HospitalInfo {
    /** 医院名称 */
    private String title;
    /** 医院地址 */
    private String address;
    /** 联系电话 */
    private String phone;
    /** 医院等级 */
    private String grade;
    /** 重点科室 */
    private String dment;
    /** 经营方式 */
    private String mode;
    /** 传真号码 */
    private String fax;
    /** 电子邮箱 */
    private String email;
    /** 医院网址 */
    private String website;
}
步骤四:编写java代码:
 		ArrayList<HospitalInfo> list = new ArrayList<>();
 		// 要爬取数据页面的地址
        String url = "http://www.a-hospital.com/w/%E4%B8%8A%E6%B5%B7%E5%B8%82%E5%8C%BB%E9%99%A2%E5%88%97%E8%A1%A8";
        Document doc = null;
        try {
        	// 这个可以理解为去请求这个页面信息
            doc = Jsoup.connect(url).get();
            // 这里的表达式,就跟前端的选择器有关
            Elements listDiv = doc.select("div#bodyContent > ul > li"); 
            for(Element element : listDiv){
                HospitalInfo hospitalInfo = new HospitalInfo();
                // 获取下一级的b标签
                Elements b = element.getElementsByTag("b");
                for (Element element1 : b) {
                    switch (element1.text()){
                        case "医院地址":
							// parent:上一级		text 标签文本             
                            hospitalInfo.setAddress(element1.parent().text());
                            break;
                        case "联系电话":
                            hospitalInfo.setPhone(element1.parent().text());
                            break;
                        case "医院等级":
                            hospitalInfo.setGrade(element1.parent().text());
                            break;
                        case "重点科室":
                            hospitalInfo.setDment(element1.parent().text());
                            break;
                        case "经营方式":
                            hospitalInfo.setMode(element1.parent().text());
                            break;
                        case "传真号码":
                            hospitalInfo.setFax(element1.parent().text());
                            break;
                        case "电子邮箱":
                            hospitalInfo.setEmail(element1.parent().text());
                            break;
                        case "医院网站":
                            hospitalInfo.setWebsite(element1.parent().text());
                            break;
                        default:
                            hospitalInfo.setTitle(element1.text());
                    }

                }
                list.add(hospitalInfo);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

结果:
在这里插入图片描述

结论

Jsoup是一个功能强大而灵活的HTML解析库,使得在Java中进行Web页面解析和数据抓取变得更加简单。通过使用Jsoup,开发者可以轻松地从HTML文档中提取所需的信息,而不必手动处理复杂的HTML结构。在实际应用中,Jsoup是一个不可或缺的工具,有助于提高开发效率。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

子非我鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值