java爬虫

子非我鱼

已于 2024-01-13 15:35:28 修改

阅读量304

点赞数 2

分类专栏： # 爬虫后端文章标签： java

于 2021-06-23 14:39:10 首次发布

本文链接：https://blog.csdn.net/qq_45752401/article/details/118151732

版权

后端同时被 2 个专栏收录

41 篇文章 0 订阅

订阅专栏

爬虫

6 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📫 作者简介：「子非我鱼」，专注于研究全栈
🔥 三连支持：欢迎 ❤️关注、👍点赞、👉收藏三连，支持一下博主~

文章目录

引言

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可操作HTML元素、属性、文本；( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )
关于jsoup的方法使用说明，想深入了解的看这个jsoupApi文档使用

采用jsoup方式示例

步骤一：首先引入所需依赖：

 		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

步骤二：准备数据，选择要爬取数据的网页

在这里插入图片描述
如图，我要获取这个页面，红框的这些数据

步骤三：创建HospitalInfo.java

@Data
public class HospitalInfo {
    /** 医院名称 */
    private String title;
    /** 医院地址 */
    private String address;
    /** 联系电话 */
    private String phone;
    /** 医院等级 */
    private String grade;
    /** 重点科室 */
    private String dment;
    /** 经营方式 */
    private String mode;
    /** 传真号码 */
    private String fax;
    /** 电子邮箱 */
    private String email;
    /** 医院网址 */
    private String website;
}

步骤四：编写java代码：

 		ArrayList<HospitalInfo> list = new ArrayList<>();
 		// 要爬取数据页面的地址
        String url = "http://www.a-hospital.com/w/%E4%B8%8A%E6%B5%B7%E5%B8%82%E5%8C%BB%E9%99%A2%E5%88%97%E8%A1%A8";
        Document doc = null;
        try {
        	// 这个可以理解为去请求这个页面信息
            doc = Jsoup.connect(url).get();
            // 这里的表达式，就跟前端的选择器有关
            Elements listDiv = doc.select("div#bodyContent > ul > li"); 
            for(Element element : listDiv){
                HospitalInfo hospitalInfo = new HospitalInfo();
                // 获取下一级的b标签
                Elements b = element.getElementsByTag("b");
                for (Element element1 : b) {
                    switch (element1.text()){
                        case "医院地址":
							// parent:上一级		text 标签文本             
                            hospitalInfo.setAddress(element1.parent().text());
                            break;
                        case "联系电话":
                            hospitalInfo.setPhone(element1.parent().text());
                            break;
                        case "医院等级":
                            hospitalInfo.setGrade(element1.parent().text());
                            break;
                        case "重点科室":
                            hospitalInfo.setDment(element1.parent().text());
                            break;
                        case "经营方式":
                            hospitalInfo.setMode(element1.parent().text());
                            break;
                        case "传真号码":
                            hospitalInfo.setFax(element1.parent().text());
                            break;
                        case "电子邮箱":
                            hospitalInfo.setEmail(element1.parent().text());
                            break;
                        case "医院网站":
                            hospitalInfo.setWebsite(element1.parent().text());
                            break;
                        default:
                            hospitalInfo.setTitle(element1.text());
                    }

                }
                list.add(hospitalInfo);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

结果：
在这里插入图片描述

结论

Jsoup是一个功能强大而灵活的HTML解析库，使得在Java中进行Web页面解析和数据抓取变得更加简单。通过使用Jsoup，开发者可以轻松地从HTML文档中提取所需的信息，而不必手动处理复杂的HTML结构。在实际应用中，Jsoup是一个不可或缺的工具，有助于提高开发效率。

子非我鱼

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
java爬虫

方式一，采用jsoup方式关于jsoup的方法使用说明，想深入了解的看这个jsoupApi文档使用首先引入所需依赖： <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </de
复制链接

扫一扫