使用 jsoup实现网页抓取

最新推荐文章于 2022-10-30 15:55:44 发布

Hxxa

最新推荐文章于 2022-10-30 15:55:44 发布

阅读量384

点赞数

文章标签： jshop

本文链接：https://blog.csdn.net/qq_32691569/article/details/89473077

版权

本文介绍了如何利用Java库jsoup进行网页抓取。通过DOM、CSS和jQuery-like的方法，jsoup能方便地解析HTML内容。教程中展示了下载jsoup.jar后，获取网站根节点、特定class节点、h2标签及其内部a标签的文字和链接的步骤。

摘要由CSDN通过智能技术生成

简介：

jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML 解析。

准备工作：

下载jsoup.jar包:https://jsoup.org/download
代码：

Document document = Jsoup.connect(url).post();

获取整个网站的根节点，也就是html开头部分一直到结束

Elements content=document.getElementsByClass("content");

获取class为content的节点

Elements h = content.select("h2");

在上一节点下获取所有h2标签

                
for(int j=0;j<h.size();j++){
    String tit=h.get(j).text();
    //System.out.println(tit);
    String s = h.get(j).select("a").attr("href");
    System.out.print

最低0.47元/天解锁文章

Hxxa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用 jsoup实现网页抓取

简介：jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML 解析。准备工作：下载jsoup.jar包:https://jsoup.org/download代码：Do...
复制链接

扫一扫