Jsoup爬虫入门实战

最新推荐文章于 2024-05-03 17:19:41 发布

--只因--

最新推荐文章于 2024-05-03 17:19:41 发布

阅读量1k

点赞数

分类专栏：爬虫文章标签：爬虫 java 开发语言

本文链接：https://blog.csdn.net/G823909/article/details/128072803

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Jsoup介绍

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某个URL地址、HTML文本内容，而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据，所以 jsoup 也可以被当做爬虫工具使用。

二、实战

2.1、创建一个springboot项目，并导入依赖

<!--添加fastjson依赖-->
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.7</version>
        </dependency>
        
<!--添加Jsoup依赖-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

2.2、创建实体类，用于封装商品信息

@Data
@AllArgsConstructor
@NoArgsConstructor
public class Content {
    private String title;
    private String img;
    private String price;
    // 可以自己添加属性完善功能
}

2.3、写一个工具类，解析网页

public static List<Content> parseJD(String keyword) throws IOException {
        /// 使用前需要联网
        // 请求url
        String url = "http://search.jd.com/search?keyword=" + keyword;
        // 1.解析网页(jsoup 解析返回的对象是浏览器Document对象)
        Document document = Jsoup.parse(new URL(url), 30000);
        // 使用document可以使用在js对document的所有操作
        // 2.获取元素（通过id）,id自己查网页
        Element j_goodsList = document.getElementById("J_goodsList");
        // 3.获取J_goodsList ul 每一个
        Elements lis = j_goodsList.getElementsByTag("li");
        // System.out.println(lis);
        // 4.获取li下的 img、price、name
        // list存储所有li下的内容
        List<Content> contents = new ArrayList<Content>();
        for (Element li : lis) {
            // 由于网站图片使用懒加载，将src属性替换为data-lazy-img
            String img = li.getElementsByTag("img").eq(0).attr("data-lazy-img");// 获取li下 第一张图片
            String name = li.getElementsByClass("p-name").eq(0).text();
            String price = li.getElementsByClass("p-price").eq(0).text();
            // 封装为对象
            Content content = new Content(name,img,price);
            // 添加到list中
            contents.add(content);
        }
        // System.out.println(contents);
        // 5.返回 list
        return contents;
    }

2.4、测试

// 测试一下
    public static void main(String[] args) throws IOException {
        HtmlParseUtil.parseJD("java").forEach(System.out::println);
    }

成功爬取到java相关信息的数据

在这里插入图片描述

如果有兴趣的小伙伴，也可以和ElasticSearch联动，创建一个索引将爬取的数据入在索引库中，当做搜索库！

--只因--

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Jsoup爬虫入门实战

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某个URL地址、HTML文本内容，而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据，所以 jsoup 也可以被当做爬虫工具使用。
复制链接

扫一扫